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内 容 提要 


本 书 介 绍 Python 语言 的 基础 知识 及 其 在 各 个 领域 的 具体 应 用 ， 基 于 最 新 版 本 3.x。 书 中 首先 
介绍 了 Python 语言 的 一 些 必 备 基 本 知识 ， 然 后 介绍 了 在 商业 、 科 研 以 及 艺术 领域 使 用 Python 开 
发 各 种 应 用 的 实例 。 文 字 简洁 明了 ， 案 例 丰 富 实用 ， 是 一 本 难得 的 Python 入门 手册 。 

本 书 适合 所 有 编程 初学 者 阅读 。 
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本 书 介绍 Python 编程 语言 ， 主 要 面向 编程 初学 者 。 不 过 ， 如 果 你 是 一 位 有 经 验 的 程序 员 ， 
想 再 学 门 Python 编程 语言 ， 本 书 也 很 适合 作为 入 门 读物 。 


本 书 节 奏 适 中 ， 从 基础 开始 逐步 深入 其 他 话题 。 我 会 结合 食谱 和 教程 的 风格 来 解释 新 术语 
和 新 概念 ， 但 不 会 一 次 介绍 很 多 。 你 会 尽早 并 且 常 常 接触 到 真实 的 Python 代码 。 


虽然 本 书 是 入 门 读物 ， 但 我 还 是 介绍 了 一 些 看 起 来 比较 高 阶 的 话题 ， 比 如 NoSQL 数据 库 
和 消息 传递 库 。 之 所 以 介绍 它们 ， 是 因为 在 解决 某 类 问题 时 它们 比 标准 库 更 加 合适 。 你 需 
要 下 载 并 安装 这 些 第 三 方 Python 包 ， 从 而 更 好 地 理解 Python“ 内 置 电池 ”适用 于 什么 场 
景 。 此 外 ， 尝 试 新 事物 本 身 也 充满 乐趣 。 

我 还 会 展示 一 些 反面 的 例子 ， 提 醒 你 不 要 那么 去 做 。 如 果 你 之 前 使 用 过 其 他 语言 并 且 想 把 
风格 照搬 到 Python 的 话 ， 要 格外 注意 。 还 有 ， 我 不 认为 Python 是 完美 的 ， 我 会 告诉 你 哪 
些 东 西 应 该 避免 。 


























书 中 有 时 会 出 现 类 似 本 条 的 提示 内 容 ， 主 要 用 于 解释 一 些 容易 混 请 的 概念 或 
者 用 更 合适 的 Python 风格 的 方法 来 解决 同一 个 问题 。 


目标 读者 


本 书 的 目标 读者 是 那些 对 世界 上 最 流行 的 计算 语言 感 兴趣 的 人 ， 无 论 你 之 前 是 否 学 过 编程 。 


本 书 结构 


本 书 前 7 章 介绍 Python 基础 知识 ， 建 议 按 顺 序 阅 读 。 后 面 5 章 介绍 如 何在 不 同 的 应 用 场景 
中 使 用 Python， 比如 Web、 数 据 库 、 网 络 ， 等 等 ， 可 以 按 任意 顺序 阅读 。 附 录 A、B、C 
介绍 Python 在 艺术 、 商 业 和 科学 方面 的 应 用 ， 附 录 D 是 Python 3 的 安装 教程 ， 附 录 卫 和 
附录 了 是 每 章 练习 题 的 答案 和 速 查 表 。 
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第 1 章 

程序 和 织 袜子 或 者 烤 土 豆 很 像 。 通 过 一 些 真实 的 Python 程序 可 以 了 解 这 门 语言 的 概 
貌 、 能 力 以 及 在 真实 世界 中 的 用 途 。Python 和 其 他 语言 相 比 有 很 多 优势 ， 不 过 也 有 一 
些 不 完美 的 地 方 。 旧 版 本 的 Python (Python 2) 正在 被 新 版 本 (Python 3) 替代 。 如 果 
你 在 使 用 Python 2， 请 安装 Python 3。 你 可 以 使 用 交互 式 解释 器 自行 尝试 本 书 中 的 代 
码 示例 。 

第 2 章 

该 章 会 介绍 Python 中 最 简单 的 数据 类 型 : 布尔 值 、 整 数 、 浮 点 数 和 文本 字符 串 。 你 也 
会 学 习 基础 的 数学 和 文本 操作 。 

第 3 章 

该 章 会 学 习 Python 的 高 级 内 置 数据 结 构 : 列表 、 元 组 、 字 典 和 集合 。 你 可 以 像 玩 乐高 
积木 一 样 用 它们 来 构建 更 复杂 的 结构 ， 并 学 到 如 何 使 用 迭代 器 和 推导 式 来 遍历 它们 。 
第 4 章 

该 章 会 学 习 如 何在 之 前 学 习 的 数据 结构 上 用 代码 实现 比较 、 选 择 和 重复 操作 。 你 会 学 
习 如 何 用 函数 来 组 织 代 码 ， 并 用 异常 来 处 理 错 误 。 

第 5 章 

该 章 会 介绍 如 何 使 用 模块 、 包 和 程序 组 织 大 型 代码 结构 。 你 会 学 习 如 何 划 分 代码 和 数 
据 、 数 据 的 输入 输出 、 处 理 选项 、 使 用 Python 标准 库 并 了 解 标 准 库 的 内 部 实现 。 
第 6 章 
如 果 你 已 经 在 其 他 语言 中 学 过 面向 对 象 编程 ， 就 可 以 轻松 掌握 Python 的 写法 。 该 章 会 
介绍 对 象 和 类 的 适用 场景 ， 有 了 时候 使 用 模块 其 至 列表 和 字典 会 更 加 合适 。 

第 7 章 

该 章 会 介绍 如 何 像 专 家 一 样 处 理 数据 。 你 会 学 到 如 何 处 理 文本 和 二 进 制 数据 以 及 
Unicode 字符 和 IO。 


































































































第 8 章 

数据 需要 地 方 来 存放 。 在 该 章 中 ， 你 首先 会 学 习 使 用 普通 文件 、 目 录 和 文件 系统 ， 接 
会 学 习 如 何 处 理 常用 文件 格式 ， 比 如 CSV、JSON 和 XML。 此 外 ， 你 还 会 了 解 如 何 

从 关系 型 数据 库 甚 至 是 最 新 的 NoSQL 数据 库 中 存 取 数据 。 

第 9 齐 

该 章 单独 介绍 Web， 包 括 客 户 端 、 服 务 器 、 数 据 抓 取 、API 和 框架 。 你 会 编写 一 个 带 

请 求 参数 处 理 和 模板 的 真实 网 站 。 

第 10 章 

该 章 会 介绍 系统 相关 内 容 ， 难 度 较 高 。 你 会 学 习 如 何 管理 程序 、 进 程 和 线程 ， 处 理 日 

期 和 时 间 ， 实 现 系 统管 理 任务 自动 化 。 

第 11 章 

该 章 会 介绍 网 络 相 关内 容 : 服务 、 协 议和 API。 该 章 示例 覆盖 了 底层 TCP 套 接 字 、 消 
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息 库 以 及 队列 系统 、 云 端 部 署 。 

第 12 章 

该 章 会 介绍 Python 相关 的 小 技巧 ， 比 如 安装 、 使 用 IDE、 测 试 、 调 试 、 日 志 、 版 本 控 
制 和 文档 ， 还 会 介绍 如 何 寻 找 并 安装 有 用 的 第 三 方 包 、 打 包 自 己 的 代码 以 供 重用 ， 以 
及 如 何 寻 找 更 多 有 用 的 信息 。 视 你 好 运 。 


























。 附录 A 
附录 A 会 介绍 Python 在 艺术 领域 的 应 用 : 图 像 、 音 乐 、 动 画 和 游戏 。 
。 附录 B 
Python 在 商业 领域 也 有 应 用 : 数据 可 视 化 图表、 图形 和 地 图 )、 安 全 和 管理 。 
。 附录 C 
Python 在 科学 领域 应 用 得 尤其 广泛 : 数学 和 统计 学 、 物 理科 学 、 生 物 科 学 以 及 医学 。 




















附录 C 会 介绍 NumPy、SciPy 和 Pandas 。 

附录 D 

如 果 你 还 没有 安装 Python 3， 附 录 DD 会 介绍 Windows、Mac OS/X、Linux 和 Unix 下 的 
安装 方法 。 











附录 下 
附录 也 包含 每 章 结尾 的 练习 答案 。 请 在 末 自 尝试 解答 之 后 再 查看 答案 。 
附录 下 


附录 下 包含 一 些 有 用 的 速 查 内 容 。 


Python 版 本 


开发 者 会 不 断 向 计算 机 语言 中 加 入 新 特性 、 修 复 问题 ， 因 此 计算 机 语言 一 直 在 变化 。 本 书 








中 的 代码 示例 在 Python 3.3 中 编写 和 测试 。 在 本 书 编辑 期 间 Python 3.4 发 布 了 ， 我 会 介绍 
一 些 新 版 本 的 内 容 。 如 果 你 想 了 解 相关 信息 和 特性 的 发 布 时 间 ， 可 以 阅读 What’s New in 
Python 页 面 (https://docs.python.org/3/whatsnew/)。 这 个 页 面 技术 性 比较 强 ， 对 于 Python 
初学 者 来 说 难度 较 大 ， 不 过 如 果 你 之 后 想 研 究 Python 的 兼容 性 ， 可 以 阅读 它 。 


排版 约定 


本 






































使 用 了 下 列 排 版 约定 。 

楷体 

表示 新 术语 。 

等 宽 字 体 (constant width ) 

表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 国 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 
语句 和 关键 字 等 。 
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出 吾 


。 加 粗 等 宽 字 体 (constant width botLd ) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 





该 图 标 表示 一 般 注 记 。 








图 标 表示 警告 或 警示 。 


玉 





使 用 代码 示例 


补充 材料 (代码 示例 、 练 习 等 ) 可 以 从 https://github.com/madscheme/introducing-python 
下 载 。 

本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :; “Introducing Python by Bill Lubanovic(O’Reilly). Copyright 
2015 Bill Lubanovic, 978-1-449-35936-2.” 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 























Safari2 Books Online 


Safari Books Online (http:Wwww.safaribooksonline.com ) 是 应 运 
S 可 f rl 而 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 
技术 和 商务 作家 的 专业 作品 。 技 术 专家 、 软 件 开发 人 员 、Web 
设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 
习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 
对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media、Prentice 
Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit 

















Books Online 























Press、 Focal Press、Cisco Press、John Wiley & Sons、 Syngress、 Morgan Kaufmann、IBM 





Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、 


Jones 人 Bartlett、Course Technology 以 及 其 他 几 十 家 出 版 祝 








F: 的 上 千 种 图 书 、 培 训 视 频 和 正 





式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 





请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 





O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 





奥 菜 利 技术 咨询 


O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 











例 代 码 以 及 其 他 信息 。 





(北京 ) 有 限 公司 











本 书 的 网 站 地 址 是 : 


http://shop.oreilly.com/product/0636920028659.do 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 : 


bookquestions @oreilly.com 
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第 1 章 
Python 初探 





我 们 从 一 个 小 谜 题 以 及 它 的 答案 开始 。 你 认为 下 面 这 两 行 的 含义 是 什么 ? 


(Row 1): (RS) K18,ssk,k1,turn work. 
(Row 2): (WS) SL 1 pwise,p5,p2tog,p1,turn. 


它们 看 起 来 像 是 某 种 计算 机 程序 。 实 际 上 ， 这 是 一 个 针织 图 案 。 更 准确 地 说 ， 这 两 行 描 述 
的 是 如 何 编织 袜子 的 足 跟 部 分 。 对 我 来 说 ， 看 懂 它 们 就 像 让 猫 看 懂 《 纽 约 时 报 》 上 的 填 字 
游戏 一 样 难 ， 但 是 对 我 妻子 来 说 却 轻 而 易 举 。 如 果 你 也 懂 编 织 ， 一 样 可 以 轻松 看 懂 。 


来 看 另 一 个 例子 。 虽 然 你 不 知道 最 终 会 做 出 什么 ， 但 是 马上 就 能 明白 下 面 的 内 容 是 什么 


1/2 杯 黄油 或 者 人 造 黄油 
1/2 杯 奶油 

2.5 杯 面粉 

1 茶匙 盐 

1 汤匙 糖 

4 杯 糊 状 土豆 (冷藏 ) 


确保 在 加 入 面粉 之 前 冷藏 所 有 材料 。 
混合 所 有 材料 。 

用 力 揉 。 

揉 成 20 个 球 并 冷藏 。 

对 于 每 一 个 球 : 

在 布 上 酒 上 面粉 。 

用 拓 面 本 把 球 拓 成 圆 饼 。 

入 锅 , 炸 至 棕色 。 
翻 面 继续 炸 。 


即使 你 不 会 做 饭 ， 应 该 也 能 看 懂 这 是 一 个 菜谱 ， 一 系列 食物 原料 以 及 准备 工作 。 这 道 菜 是 
什么 呢 ? 是 lefse， 一道 和 玉米 饼 很 像 的 挪威 美食 。 做 好 之 后 抹 上 黄油 、 果 桨 或 者 其 他 你 喜 
欢 吃 的 东西 ， 最 后 卷 起 来 吃 。 
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编织 图 案 和 菜谱 有 一 些 共同 的 特征 。 


。 专 有 名 词 、 缩 写 以 及 符号 。 有 些 很 常见 ， 有 些 很 难 懂 。 

。 规定 专 有 名 词 、 缩 写 以 及 符号 的 使 用 方法 ， 也 就 是 它们 的 语法 。 

。 一 个 操作 序列 ， 按 照 顺序 进行 。 

。 有 时 需要 重复 一 些 操作 〈 御 环 ) ， 比 如 炸 lefse 的 每 一 面 。 

。 有 时 需要 引用 其 他 操作 序列 〈 用 计算 机 术语 来 说 就 是 一 个 函数 )。 在 菜谱 中 ， 你 可 能 需 
要 引用 另 一 个 将 土豆 的 成 糊 状 的 荣 谱 。 

。 假定 已 经 有 相关 知识 。 沫 谱 假 定 你 知道 水 是 什么 以 及 如 何 烧 水 。 编 织 图 案 假 定 你 学 过 编 
织 并 且 不 会 经 常 扎 到 和 手 。 

。 一 个 期 望 的 结果 。 在 我 们 的 例子 中 分 别 是 福子 和 食物 ， 千 万 不 要 把 它们 混在 一 起 哦 。 


以 上 这 些 概 念 都 会 出 现在 计算 机 程序 中 。 这 两 个 例子 的 目的 是 让 你 知道 编程 并 不 像 看 起 来 
那么 高 深 莫 测 ， 其 实 只 是 学 习 一 些 正确 的 单词 和 规则 而 已 。 
下 面 来 看 看 真正 的 程序 。 你 知道 它 在 做 什么 吗 ? 


for countdown in 5, 4, 3, 2, 1, "hey!": 
print(countdown) 


















































这 其 实 是 一 段 Python 程序 ， 会 打印 出 下 面 的 内 容 : 


本 上 让 山上 上 wm 


ey! 


看 到 了 吗 ? 学 习 Python 就 像 看 懂 菜 谱 或 者 编织 图 案 一 样 简 单 。 此 外 ， 你 可 以 在 桌子 上 和 舒服 
并 且 安 全 地 练习 编写 Python 程序 ， 完 全 不 用 担心 被 热 水 小 到 或 者 被 针 扎 到 。 


Python 程序 有 一 些 特 殊 的 单词 和 符号 一 for、in、print、 副 号、 冒号 、 括 号 以 及 其 他 符 
号 。 这 些 单词 和 符号 是 语法 的 重要 组 成 部 分 。 好 消息 是 ，Python 的 语法 非常 优秀 ， 相 比 其 
他 大 多 数 编程 语言 ， 学 习 Python 需要 记 住 的 语法 内 容 很 少 。Python 语法 非常 自然 ， 就 像 
一 份 菜谱 一 样 。 
下 面 的 Python 程序 会 从 一 个 Python 列表 (list) 中 选 出 一 条 电视 新 闻 的 常用 语 并 打印 出 来 


cliches = [ 
"At the end of the day"， 
"Having said that", 
"The fact of the matter is", 
"Be that as it may", 
"The bottom line is", 
"If you will", 
] 
print(cliches[3]) 


程序 会 打印 出 第 四 条 常用 语 : 


Be that as it may 
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一 个 Python 列表 ， 比 如 cLtches， 就 是 一 个 值 序列 ， 可 以 通过 它们 相对 于 列表 起 始 位 置 的 
偏 移 量 来 访问 。 第 一 个 值 的 偏 移 量 是 9， 第 四 个 值 的 偏 移 量 是 3。 














人 们 通常 从 1 开始 数 数 ， 所 以 从 0 开始 数 似 乎 很 奇怪 。 用 偏 移 量 来 代替 位 置 
会 更 好 理解 一 些 。 





列表 在 Python 中 很 常用 ， 第 3 章 会 讲解 列表 的 用 法 。 
下 面 这 段 程序 同样 会 打印 出 一 条 引用 内 容 ， 但 是 这 次 是 用 说 话 者 的 人 名 而 不 是 列表 中 的 位 
置 来 进行 访问 : 
quotes = { 
"Moe": "A wise guy, huh?", 


"Larry": "Ow!", 
"Curly": "Nyuk nyuk!", 


stooge = "Curly" 
print(stooge, "says:", quotes[stooge]) 


运行 这 个 小 程序 会 打印 出 : 
Curly says: Nyuk nyuk! 


quotes 是 一 个 Python 字典 。 字 典 是 一 个 集合 ， 包 含 唯 一 健 (本 例 中 是 跟 屁 虫 “Stooge” 的 
名 字 ) 及 其 关联 的 值 本 例 中 是 跟 屁 虫 说 的 话 )。 使 用 字典 可 以 通过 名 字 来 存储 和 查找 东 
西 ， 和 列表 一 样 非常 有 用 。 第 3 章 会 详细 讲解 字典 。 


常用 语 的 例子 中 使 用 方 括号 ([ 和 ]) 来 创建 Python 列表 ， 跟 屁 虫 的 例子 中 使 用 大 括号 
({ 和 ]】, 大 括号 的 英文 是 curly bracket, 但 是 大 括号 和 Curly 没有 任何 关系 ) 来 创建 Python 
字典 。 这 些 都 是 Python 的 语法 ， 在 之 后 的 内 容 中 你 会 看 到 更 多 语法 。 


现在 我 们 来 看 另 一 个 完全 不 同 的 例子 : 示例 1-1 中 的 Python 程序 会 执行 一 系列 复杂 的 任 
务 。 你 可 能 还 看 不 懂 这 段 程序 ， 没 关系 ， 学 完 本 书 之 后 就 可 以 看 懂 了 。 这 个 例子 的 目的 是 
让 你 了 解 典型 的 Python 程序 长 什么 样 。 如 果 你 了 解 其 他 计算 机 语言 ， 可 以 对 比 一 下 。 

示例 1-1 会 连接 YouTube 网 站 并 获取 当前 评价 最 高 的 视频 的 信息 。 如 果 YouTube 返回 
的 是 常见 的 HTML 文本 ， 那 就 很 难 从 中 挖掘 出 我 们 想 要 的 信息 (9.3.4 节 会 介绍 网 页 抓 
取 )。 季 运 的 是 ， 它 返回 的 是 JSON 格式 的 数据 ， 这 种 格式 可 以 直接 用 计算 机 处 理 。JSON 
(JavaScript Object Notation，JavaScript 对 象 符号 ) 是 一 种 人 类 可 以 阅读 的 文本 格式 ， 它 
描述 了 类 型 、 值 以 及 值 的 顺序 。JSON 就 像 一 个 小 型 编程 语言 ， 使 用 JSON 在 不 同 计算 机 
语言 和 系统 之 间 交 换 数 据 已 经 成 为 了 一 种 非常 流行 的 方式 。 更 多 关于 JSON 的 内 容 请 参考 
8.2.4 节 。 






































注 1: Curly 是 美国 乌鸦 童子 军 (Crow Scouts) 的 一 员 ， 乌 鸦 童子 军 是 美国 和 印第安 人 打仗 时 由 印第安 人 战 
俘 组 成 的 军队 。Curly 是 小 巨 角 河 战役 中 为 数 不 多 的 幸存 者 之 一 。 小 巨 角 河 战役 是 美军 和 北美 势力 
最 庞大 的 苏 族 印 地 安 人 之 间 的 战争 ， 在 这 场 战争 中 印第安 人 歼灭 了 美国 历史 上 最 有 名 的 第 七 骑兵 团 ， 
Curly 当时 没有 参战 ， 他 是 第 一 个 报告 第 七 骑兵 团 战败 的 人 ， 也 因此 出 名 。 一 一 译 者 注 
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Python 程序 可 以 把 JSON 文本 翻译 成 Python 的 数据 结构 





你 会 在 之 后 的 两 章 中 学 习 它 








们 一 一 和 你 自己 创建 出 来 的 一 样 。 这 个 YouTube 响应 包含 很 多 数据 ， 作 为 演示 我 只 打印 出 
了 前 6 个 视频 的 标题 。 再 说 一 次 ， 这 是 一 个 完整 的 Python 程序 ， 你 自己 也 可 以 运行 一 下 。 


示例 1-1: 








intro/youtube.py 


import json 
from urllib.request import urlopen 
url = "https://gdata.youtube.com/feeds/api.standardfeeds/top_rated?alt=json" 
response = urlopen(url) 
contents = response.read() 
text = contents.decode('utf8') 
data = json.Loads(text) 
for video in data['feed']['entry'][0:6]: 
print(video['title']['$t']) 


最 后 一 次 运行 这 个 程序 得 到 的 输出 是 : 


Evolution of Dance - By Judson Laipply 

Linkin Park - Numb 

Potter Puppet Pals: The Mysterious Ticking Noise 
"Chocolate Rain" Original Song by Tay Zonday 
Charlie bit my finger - again ! 

The Mean Kitty Song 


这 个 Python 小 程序 仅仅 用 了 9 行 代码 就 很 好 地 完成 了 任务 ， 并 且 具 备 很 高 的 可 读 性 。 如 果 
你 看 不 懂 下 面 的 术语 ， 没 关系 ， 接 下 来 的 几 章 会 让 你 明白 它们 的 意思 。 


第 1 行 : 
第 2 行 : 
第 3 行 : 
第 4 行 : 
第 5 行 : 
第 6 行 : 
第 7 行 : 
第 8 行 : 
第 8 行 : 
第 9 行 : 

















从 Python 标准 库 中 导入 名 为 json 的 所 有 代码 。 
从 Python 标准 urLLib 库 中 导入 urlopen 函数 。 
给 变量 url 赋值 一 个 YouTube 地 址 。 
连接 指定 地 址 处 的 Web 服务 器 并 请 求 指定 的 Web 服务 。 

获取 响应 数据 并 赋值 给 变量 contents。 

把 contents 解码 成 一 个 JSON 格式 的 文本 字符 串 并 赋值 给 变量 text。 
把 text 转换 为 data 一 一 一 个 存储 视频 信息 的 Python 数据 结构 。 

每 次 获取 一 个 视频 的 信息 并 赋值 给 变量 video。 

使 用 两 层 Python 字典 (data['feed']['entry']) 和 切片 操作 ([0:6])。 
使 用 print 函数 打印 出 视频 标题 。 



































视频 信息 中 包含 多 种 你 之 前 见 过 的 Python 数据 结构 ， 第 3 章 会 详细 介绍 。 


在 这 个 例子 中 ， 我 们 使 用 了 一 些 Python 标准 库 模块 (它们 是 安装 Python 时 就 已 经 包含 的 
程序 )， 但 是 它们 并 不 是 最 好 的 。 下 面 的 代码 使 用 第 三 方 Python 软件 包 requests 重 写 了 这 
个 例子 : 


import requests 


url = "https://gdata.youtube.com/feeds/api.standardfeeds/top_rated?aLt=json 

















response = requests.get(url) 

data = response.json() 

for video in data[ 'feed'][ entry'][0:6]: 
print(video[ 'titLe'][ st']) 














新 版 代码 只 有 6 行 ， 并 且 我 认为 可 读 性 更 高 。 第 5 章 会 详细 介绍 requests 以 及 其 他 第 三 方 
Python 软件 。 


1.1 真实 世界 中 的 Python 


那么 ， 是 否 真 的 值得 付出 时 间 和 努力 来 学 习 Python 呢 ? 它 真 的 有 用 吗 ? 实际 上 ，Python 
诞生 于 1991 年 〈 比 Java 还 早 )， 并且 一 直 是 最 流行 的 十 门 计算 机 语言 之 一 。 公 司 需 要 雇用 
程序 员 来 写 Python 程序 ， 包 括 你 每 天 都 会 用 到 的 Google、YouTube、Dropbox、Netflix 和 
Hulu 等 。 我 用 Python 开发 过 许多 产品 级 应 用 ， 从 邮件 搜索 应 用 到 商业 网 站 都 有 。 对 于 发 
展 迅 速 的 组 织 来 说 ，Python 能 极 大 地 提高 生产 力 。 

Python 可 以 应 用 在 许多 计算 环境 下 ， 如 下 所 示 : 

。 命令 行 窗口 

。 图 形 用 户 界面 ， 包 括 Web 

。 客户 端 和 服务 端 Web 

。 大 型 网 站 后 端 

。 云 (第 三 方 负责 管理 的 服务 器 ) 

。 移动 设 
。 嵌入 式 设备 

Python 程序 从 一 次 性 脚本 一 一 就 像 你 在 本 章 中 看 到 的 一 样 一 一 到 几 十 万 行 的 系统 都 有 。 我 
们 会 介绍 Python 在 网 站 、 系 统管 理 和 数据 处 理 方面 的 应 用 ， 还 会 介绍 Python 在 艺术 、 科 
学 和 商业 方面 的 应 用 。 


1.2 Python 与 其 他 语言 


Python 和 其 他 语言 相 比如 何 呢 ? 什么 时 候 该 选择 什么 语言 呢 ? 本 节 会 展示 一 些 其 他 语言 的 
代码 片段 ， 这 样 更 直观 一 些 。 如 果 有 些 语 言 你 从 未 使 用 过 ， 也 不 必 担 心 ， 你 并 不 需要 看 懂 
所 有 代码 ( 当 你 看 到 最 后 的 Python 示例 时 ， 会 发 现 没 学 过 其 他 语言 也 不 是 什么 坏事 )。 如 
果 你 只 对 Python 感 兴趣 ， 完 全 可 以 跳 过 这 一 节 。 
下 面 的 每 段 程 序 都 会 打印 出 一 个 数字 和 一 条 描述 语言 的 信息 。 
如 果 你 使 用 的 是 命令 行 或 者 终端 窗口 ， 那 你 使 用 的 就 是 shell 程序 ， 它 会 读 入 你 的 命令 、 运 
行 并 显示 结果 。Windows 的 shell 叫 作 cmd， 它 会 运行 后 组 为 .bat 的 batch 文件 。Linux 和 
其 他 类 Unix 系统 (包括 Mac OS X) 有 许多 shell 程序 ， 最 流行 的 称 为 bash 或 者 sh。shell 
有 许多 简单 的 功能 ， 比 如 执行 简单 的 逻辑 操作 以 及 把 类 似 * 的 通配符 扩展 成 文件 名 。 你 可 
以 把 命令 保存 到 名 为 “shell 脚本 ”的 文件 中 稍 后 运行 。shell 可 能 是 程序 员 接 触 到 的 第 一 个 
程序 。 它 的 问题 在 于 程序 超过 百 行 之 后 扩展 性 很 差 ， 并 且 比 其 他 语言 的 运行 速度 慢 很 多 。 
下 面 就 是 一 段 shell 程序 : 

#1!/bin/sh 


Language=0 
echo "Language S$Language: I am the shell. So there." 
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如 果 你 把 这 段 代码 保存 为 meh.sh 并 通过 sh meh.sh 命令 来 运行 它 ， 就 会 看 到 下 面 的 输出 : 


Language 0: I am the shell. So there. 


老牌 语言 C 和 C++ 是 底层 语言 ， 只 有 极其 重视 性 能 时 才 会 使 用 。 它 们 很 难 学 习 ， 并 且 有 
许多 细 市 需要 你 自己 处 理 ， 处 理 不 当 就 可 能 导致 程序 崩溃 和 其 他 很 难 解决 的 问题 。 下 面 古 
一 段 C 程序 : 


#include <stdio.h> 

int main(int argc, char *argv[]) { 
int language = 1; 
printf("Language %d: I am C! Behold me and tremble!\n", language); 
return 0; 



























































} 
C++ 和 C 看 起 来 很 相似 ， 但 是 特性 完全 不 同 : 


#include <iostream> 
Using namespace std; 
int main(){ 
int language = 2; 
cout << "Language " << Language << \ 
": I am C++! Pay no attention to that C behind the curtain!" << \ 
endl; 
return(0); 


Java 和 C# 是 C 和 C++ 的 接班 人 ， 解 决 了 后 者 的 许多 缺点 ， 但 是 相 比 之 下 代码 更 加 元 长 ， 
写 起 来 也 有 许多 限制 。 下 面 是 Java 代码 : 
public class Overlord { 
public static void main (String[] args) { 
int language = 3; 
System.out.format("Language %d: I am Java! Scarier than C!\n", language); 


} 
如 果 你 没 写 过 这 些 语言 的 程序 ， 可 能 会 觉 
语法 包容 。 它 们 有 时 被 称 为 静态 语言 ， 因 
释 一 下 。 
语言 有 变量 一 一 你 想 在 程序 中 使 用 的 值 的 名 字 。 静 态 语 言 要 求 你 必须 声明 每 个 变量 的 类 
型 : 它 会 使 用 多 少 内 存 以 及 允许 的 使 用 方法 。 计 算 机 利用 这 些 信息 把 程序 编译 成 非常 底层 
的 机 器 语言 (专门 给 计算 机 硬件 使 用 的 语言 ， 硬 件 很 容易 理解 ， 但 是 人 类 很 难 理解 )。 计 
算 机 语言 的 设计 者 通常 必须 进行 权衡 ， 到 底 是 让 语言 更 容易 被 人 使 用 还 是 更 容易 被 计算 机 
是 用。 声明 变量 类 型 可 以 帮助 计算 机 发 现 更 多 涡 在 的 错误 并 提高 运行 速度 ， 但 是 却 需要 使 
用 者 进行 更 多 的 思考 和 编程 。C、C++ 和 Java 代码 中 经 常 需要 声明 类 型 。 举 例 来 说 ， 在 上 
的 例子 中 必须 使 用 int 将 Language 变量 声明 为 一 个 整数 。( 其 他 类 型 的 存储 方式 和 整数 
不 同 ， 比 如 学 点 数 3.14159、 字 符 以 及 文本 数据 。) 
那么 为 什么 它们 被 称 为 静态 语言 呢 ? 因为 这 些 语言 中 的 变量 不 能 改变 类 型 。 它 们 是 静态 
的 。 整 数 就 是 整数 ， 永 远 无 法 改变 。 


得 很 奇怪 : 这 都 是 什么 东西 ?有些 语言 有 很 大 的 
为 你 必须 告诉 计算 机 许多 底层 细节 ， 下 面 我 来 解 
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相 比 之 下 ， 动 态 语言 (也 被 称 为 脚本 语言 ) 并 不 需要 在 使 用 变量 前 进行 声明 。 假 设 你 输入 
x = 5， 动态 语言 知道 5 是 一 个 整数 ， 因 此 变量 x 也 是 整数 。 这 些 语言 允许 你 用 更 少 的 代 
码 做 更 多 的 事情 。 动 态 语言 的 代码 不 会 被 编译 ， 而 是 由 解释 器 程序 来 解释 执行 。 动 态 语言 
通常 比 编译 后 的 静态 语言 更 慢 ， 但 是 随 着 解释 器 的 不 断 优 化 ， 动 态 语言 的 速度 也 在 不 断 提 
升 。 长 期 以 来 ， 动 态 语言 的 主要 应 用 场景 都 是 很 短 的 程序 (脚本 )， 比 如 给 静态 语言 编写 
的 程序 进行 数据 预 处 理 。 这 样 的 程序 通常 称 为 胶水 代码 。 虽 然 动 态 语言 很 擅长 做 这 些 事 ， 
但 是 如 今 它 们 也 已 经 具备 了 处 理 大 型 任务 的 能 力 。 
许多 年 来 ，Perl (http://www.perl.org/) 一 直 是 一 门 万 能 的 动态 语言 。Perl 非常 强大 并 且 有 
许多 扩展 库 。 然 而 ， 它 的 语法 非常 难 用 ， 并 且 似 乎 无 法 阻挡 Python 和 Ruby 的 崛起 。 下 面 
是 一 段 Perl 代码 : 


my $language = 4; 
print "Language S$language: I am Perl, the camel of languages.\n"; 















































Ruby (http://www.ruby-lang.org/) 是 一 门 新 语言 。 它 借鉴 了 一 些 Perl 的 特点 ， 并 且 因 为 
Web 开发 框架 Ruby on Rails 红 遍 大 江南 北 。Ruby 和 Python 的 许多 应 用 场景 相同 ， 选 择 哪 
一 个 通常 看 个 人 喜好 或 者 是 否 有 你 需要 的 库 。 下 面 是 一 段 Ruby 代码 : 


Language = 5 
puts "Language #{language}: I am Ruby, ready and aglow." 





PHP (http://www.php.net/) 在 Web 开发 领域 非常 流行 ， 因 为 它 可 以 轻松 结合 HTML 和 代 
码 ， 就 像 例子 中 展示 的 那样 。 然 而 ，PHP 语言 本 身 有 许多 缺陷 ， 并 且 很 少 被 应 用 在 Web 
以 外 的 领域 。 

<?PHP 


$language = 6; 
echo "Language S$language: I am PHP. The web is <i>mine<i>, I say.\n"; 











?> 
最 后 是 我 们 的 主角 ，Python: 
Language = 7 


print("Language %s: I am Python. What's for supper?" % Language) 


1.3 为 什么 选择 Python 


Python 是 一 门 非常 通用 的 高 级 语言 。 它 的 设计 极 大 地 增强 了 代码 可 读 性 ， 可 读 性 远 比 听 上 去 
重要 得 多 。 每 个 计算 机 程序 只 被 编写 一 次 ， 但 是 会 被 许多 人 阅读 和 修改 许多 次 。 提 高 可 读 性 
也 可 以 让 学 习 和 记忆 更 加 容易 ， 因 此 也 更 容易 修改 。 和 共 他 流行 的 语言 相 比 ，Python 的 学 习 
曲线 更 加 平缓 ， 可 以 让 你 很 快 具备 生产 力 ， 当 然 ， 想 成 为 专家 还 需要 深入 学 习 才 行 。 


Python 简洁 的 语法 可 以 让 你 写 出 比 静态 语言 更 短 的 程序 。 研 究 证 明 ， 程 序 员 每 天 可 以 编写 
的 代码 行 数 是 有 限 的 一 一 无 论 什么 语言 ， 因 此 ， 如 果 完 成 同样 的 功能 只 需要 编写 一 半 长 度 
的 代码 ， 生 产 力 就 可 以 提高 一 倍 。 对 于 重视 这 一 点 的 公司 来 说 ，Python 是 一 个 不 算 秘 密 的 
秘密 武器 。 





















































Python 初探 | 7 


在 顶尖 的 美国 大 学 中 (http://cacm.acm.org/blogs/blog-cacm/176450-python-is-now-the-most- 
popular-introductory-teaching-language-at-top-us-universities/fulltext) ，Python 是 计算 机 入 门 
课程 中 最 流行 的 语言 。 此 外 ， 它 也 被 两 千 多 名 雇主 (http://blog.codeeval.com/codeevalblog/ 
2014#.U73vaPldUpw=) 用 来 评估 编程 技能 。 

当然 ， 它 是 免费 的 ， 就 像 啤酒 和 演讲 一 样 。 你 可 以 免费 用 Python 来 编写 任何 东西 并 用 在 任 
何 地方 。 没 人 可 以 一 边 阅读 你 的 Python 程序 一 边 说 :“ 这 是 一 个 非常 棒 的 小 程序 ， 希 望 不 
会 发 生 什么 意外 。 

Python 几乎 可 以 和 运行 在 任何 地 方 并 且 其 标准 库 中 有 很 多 有 用 的 软件 。 


不 过 ， 选 择 Python 最 关键 的 理由 可 能 出 乎 你 的 意料 : 大 家 都 喜欢 它 。 实 际 上 ， 大 家 不 只 是 
把 Python 当 作 一 个 完成 工作 的 工具 ， 而 是 非常 享受 用 它 编程 。 在 工作 中 不 得 不 用 其 他 语言 
时 ， 人 们 通常 会 非常 想念 Python 的 某 些 特性 。 这 就 是 Python 能 够 胜出 的 原因 。 


1.4 何 时 不 应 该 使 用 Python 
Python 并 非 在 所 有 场合 都 是 最 好 用 的 语言 。 


它 并 不 是 默认 安装 在 所 有 环境 中 。 如 果 你 的 电脑 上 没有 Python， 附 录 D 会 告诉 你 如 何 
安装 。 

对 于 大 多 数 应 用 来 说 ，Python 已 经 足够 快 了 但 是 有 些 场合 下 ， 它 的 性 能 仍然 是 个 问题 。 
如 果 你 的 程序 会 花费 大 量 时 间 用 于 计算 (专业 术语 是 中 央 处 理 器 受 限 )， 那 么 可 以 使 用 C、 
C++ 或 者 Java 来 编写 程序 从 而 提高 性 能 。 但 是 这 并 不 是 唯一 的 选择 ! 


。 有 时 候 用 Python 实现 一 个 更 好 的 算法 〈 一 系列 解决 问题 的 步骤 ) 可 以 打败 C 中 的 低 效 
算法 。Python 对 于 开发 效率 的 提升 可 以 让 你 有 更 多 的 时 间 来 尝试 各 种 选择 。 

。 在 许多 应 用 中 ， 程 序 会 因为 等 待 其 他 服务 器 的 响应 而 浪费 时 间 。 这 段 时 间 里 CPU (中 
央 处 理 单元 ， 计 算 机 中 负责 所 有 计算 的 芯片 ) 几乎 什么 都 不 做 ， 因 此 ， 静 态 和 动态 程序 
的 端 到 端 时 间 几 乎 是 一 样 的 。 

。 Python 的 标准 解释 器 用 C 实现 ， 所 以 可 以 通过 C 代码 进行 扩展 。12.10 节 会 介绍 一 些 。 

。 Python 解释 器 变 得 越 来 越 快 。Java 最 初 也 很 慢 ， 经 过 大 量 的 研究 和 资金 投入 之 后 ， 它 
变 得 非常 快 。Python 并 不 属于 某 个 公司 ， 因 此 它 的 发 展会 更 缓慢 一 些 。12.10.4 节 会 介 
绍 PyPy 项 目 及 其 意义 。 

。 可 能 你 的 项 目 要 求 非常 严格 , 无 论 如 何 努 力 Python 都 无 法 达到 要 求 。 那 么 ,借用 伊 恩 : 葆 
姆 在 电影 《异形 》 中 说 过 的 一 句 话 ， 我 很 同情 你 。 通 常 来 说 可 以 选择 C、C++ 和 Java， 
不 过 新 语言 Go (http://golang.org， 写 起 来 像 Python， 人 性 能 像 C) 也 是 一 个 不 错 的 选择 。 


1.5 Python 2 与 Python 3 


你 即将 面临 的 最 大 问题 是 ，Python 有 两 个 版 本 。Python 2 已 经 存在 了 很 长 时 间 并 且 预 装 在 
Linux 和 Apple 电脑 中 。Python 是 一 门 很 出 色 的 语言 ， 但 是 世界 上 不 存在 完美 的 东西 。 和 
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其 他 领域 一 样 ， 在 计算 机 语言 中 许多 问题 很 容易 解决 ， 但 是 也 有 一 些 问题 很 难 解决 。 后 者 
的 难点 在 于 不 兼容 : 使 用 修复 后 的 新 版 本 编写 的 程序 无 法 运行 在 旧 的 Python 系统 中 ， 旧 的 
程序 也 无 法 运行 在 新 的 系统 中 。 


Python 的 发 明 者 ( 吉 多 : 范 : 罗 苏 姆 ，https://www.python.org/~guido) 和 其 他 开发 者 决定 
把 这 些 困 难 问题 放 在 一 起 解决 ， 并 把 解决 后 的 版 本 称 作 Python 3。Python 2 已 经 成 为 过 去 ， 
Python 3 才 是 未 来 。Python 2 的 最 后 一 个 版 本 是 2.7， 它 会 被 支持 很 长 一 段 时 间 ， 但 也 就 仅 
此 而 已 ， 再 也 没有 Python 2.8 了 。 新 的 开发 全 部 会 在 Python 3 上 进行 。 

本 书 使 用 的 是 Python 3。 如 果 你 使 用 的 是 Python 2 也 不 用 担心 ， 两 者 差别 不 大 。 最 明显 的 
区 别 在 于 调用 print 的 方式 ， 最 重要 的 区 别 则 是 处 理 Unicode 字符 的 方式 ， 详 情 参 见 第 2 
章 和 第 7 章 。 流 行 的 Python 软件 需要 逐步 升级 ， 和 常见 的 “ 先 有 鸡 还 是 先 有 和 蛋 ” 问 题 一 
样 。 不 过 ， 看 起 来 我 们 现在 终于 到 达 了 发 生 转变 的 临界 点 。 





















































1.6 安装 Python 


为 了 让 这 章 更 加 简洁 ， 安 装 Python 3 的 细节 参见 附录 D。 如 果 你 还 没 安 装 Python 3 或 者 不 
确定 是 否 安装 过 Python， 请 阅读 附录 D。 

















1.7 运行 Python 


安装 好 Python 3 之 后 ， 可 以 用 它 来 运行 本 书 中 的 Python 程序 和 你 自己 的 Python 代码 。 那 

么 如 何 运 行 Python 程序 呢 ? 通常 来 说 有 两 种 方法 。 

。 Python 自 带 的 交互 式 解释 器 可 以 很 方便 地 执行 小 程序 。 你 可 以 一 行 一 行 输入 命令 然后 立刻 
查看 运行 结果 。 这 种 方式 可 以 很 好 地 结合 输入 和 查看 结果 ， 从 而 快速 进行 一 些 实验 。 我 会 
用 交互 式 解 释 器 来 说 明 一 些 语 言 特性 ， 你 可 以 在 自己 的 Python 环境 中 输入 同样 的 命令 。 

。 除 此 之 外 ， 可 以 把 Python 程序 存储 到 文本 文件 中 ， 通 常 要 加 上 .py 扩展 名 ， 然 后 输入 
python 加 文件 名 来 执行 。 


我 们 来 分 别 尝试 一 下 这 两 种 方式 。 


1.7.1 使 用 交互 式 解释 器 

本 书 中 大 多 数 代 码 示例 都 用 到 了 交互 式 解 释 器 。 当 你 输入 示例 中 的 命令 并 且 看 到 同样 的 输 
出 时 ， 就 可 以 确定 你 没有 跑 偏 。 

可 以 在 电脑 上 输入 Python 主 程序 的 名 称 来 启动 解释 器 : 应 该 是 python、python3 或 者 类 似 
的 东西 。 在 本 书 接 下 来 的 内 容 中 ， 我 们 会 假设 它 叫 python;， 如 果 你 的 Python 主 程序 名 字 
不 同 ， 请 把 代码 示例 中 的 python 全 部 替换 成 你 电脑 上 的 名 称 。 

交互 式 解释 器 的 工作 原理 基本 上 和 Python 对 文件 的 处 理 方 式 一 样 ， 除 了 一 点 : 当 你 输入 一 
些 包 含 值 的 东西 时 ， 交 互 式 解 释 器 会 自动 打印 出 这 个 值 。 举 例 来 说 ， 如 果 你 启动 Python 并 
输入 数字 61， 它 会 立刻 出 现在 终端 中 。 
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在 下 面 的 例子 中 ,$ 表 示 系 统 提示 符 ， 用 来 输入 终端 中 的 命令 ， 比 如 
python。 本 书 的 代码 示例 都 会 使 用 它 ， 尽 管 在 你 的 电脑 中 提示 符 可 能 不 是 $。 




















$ python 

Python 3.3.0 (v3.3.0:bd8afb9gebf2，Sep 29 2012, 01:25:11) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>> 61 

61 


这 种 自动 打印 值 的 省 时 特性 只 有 交互 式 解释 器 中 有 ， 在 Python 语言 中 没有 。 
顺便 说 一 句 ， 也 可 以 使 用 print() 在 解释 器 中 打印 内 容 : 
>>> print(61) 


61 


如 果 你 亲自 动手 在 交互 式 解释 器 中 执行 了 上 面 这 些 例子 并 看 到 了 相同 的 结果 ， 茶 喜 
你 ， 你 成 功 运 行 了 真正 的 Python 代码 (虽然 有 点 短 )。 接 下 来 的 几 音 中 会 接触 到 更 长 的 
Python 程序 。 


1.7.2 ”使 用 Python 文件 

如 果 你 把 61 放 在 文件 中 并 使 用 Python 来 执行 它 ， 确 实 可 以 ， 但 是 程序 什么 都 不 会 输出 。 

在 非 交互 式 的 Python 程序 中 ， 你 必须 调用 print 函数 来 打印 内 容 ， 如 下 所 示 : 

print(61) 

我 们 来 生成 一 个 Python 程序 文件 并 运行 它 。 

(1) 打开 你 的 文本 编辑 器 。 

(2) 输 入 代码 print(61)， 如 上 所 示 。 

(3) 保存 文件 ， 命 名 为 61.py。 一 定 要 确保 存储 为 纯 文本 而 不 是 “ 富 文本 ”格式 ， 比 如 RTF 
或 者 Word。Python 程序 文件 并 不 是 一 定 要 以 .py 结尾 ， 但 是 加 上 它 可 以 让 你 清楚 这 个 
文件 的 作用 。 

(4) 如 果 你 使 用 的 是 图 形 用 户 界面 一 一 基本 上 每 个 人 都 会 用 一 一 请 打开 一 个 终端 窗口 ?。 

(5) 输 入 下 面 的 命令 来 运行 程序 : 

$ python 61.py 
应 该 可 以 看 到 一 行 输出 : 


61 


















































注 2: 如 果 你 不 明白 什么 是 终端 窗口 ， 请 阅读 附录 D。 
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成 功 了 吗 ? 如 果 成 功 了 ， 茶 喜 你 运行 了 你 的 第 一 个 Python 程序 ! 


1.7.3 下 一 步 


你 可 以 向 真正 的 Python 系统 中 输入 命令 ， 不 过 它们 必须 符合 Python 的 语法 。 我 们 不 会 一 
次 性 向 你 展示 所 有 的 语法 规则 ， 而 是 在 接 下 来 的 几 章 中 逐一 进行 讲解 。 

开发 Python 程序 最 基础 的 方法 是 使 用 一 个 纯 文本 编辑 器 和 一 个 终端 窗口 。 在 本 书 中 会 直接 
展示 纯 文 本 ， 有 时 候 在 交互 式 终端 中 ， 有 时 候 在 Python 文件 中 。 不 过 除 此 之 外 ， 还 有 很 多 
优秀 的 Python 集成 开发 环境 (IDE)。 它 们 的 图 形 用 户 界 面 可 能 会 有 许多 高 端 文本 编辑 功 
能 和 辅助 开发 功能 。 在 第 12 章 中 你 会 看 到 一 些 相关 介绍 。 


1.8 禅定 一 刻 


每 种 计算 机 语言 都 有 自己 的 风格 。 在 前 言 中 我 提 到 过 ， 你 可 以 用 Python 的 方式 来 表达 自 
己 。Python 中 内 置 了 一 些 自由 体 诗 歌 ， 它 们 简单 明了 地 说 明了 Python 的 哲学 〈 就 我 所 
知 ，Python 是 唯一 一 个 包含 这 种 复活 节 彩 蛋 的 语言 )。 只 要 在 交互 式 解释 器 中 输入 import 
this， 然 后 按 下 回 车 就 能 看 到 它们 : 


















































>>> import this 
《Python 之 禅 》 Tim Peters 








优美 胜 于 丑陋 
明了 胜 于 隐 史 
简洁 胜 于 复杂 
复杂 胜 于 混乱 
扁平 胜 于 岁 套 
宽松 胜 于 紧凑 
可 读 性 很 重要 





即便 是 特例 ,也 不 可 违背 这 些 规 则 
虽然 现实 往往 不 那么 完美 

但 是 不 应 该 放 过 任何 异常 

除非 你 确定 需要 如 此 

如 果 存 在 多 种 可 能 ,不 要 猜测 
肯定 有 一 种 一 一 通常 也 是 唯一 一 种 一 一 最 佳 的 解决 方案 
虽然 这 并 不 容易 ,因为 你 不 是 Python 之 父 
动手 比 不 动手 要 好 
但 不 假 思 索 就 动手 还 不 如 不 做 

如 果 你 的 方案 很 难 懂 , 那 肯定 不 是 一 个 好 方案 
如 果 你 的 方案 很 好 懂 , 那 肯定 是 一 个 好 方案 
命名 空间 非常 有 用 ,我 们 应 当 多 加 利用 


这 些 哲 学 观点 会 贯 罕 全 书 。 


1.9 ”练习 

本 章 介绍 了 Python 语言 一 一 它 是 干什么 的 、 它 是 什么 样 的 以 及 它 在 计算 机 世界 中 的 作 
用 。 在 每 章 的 结尾 我 都 会 列 出 一 些小 练习 来 帮助 你 巩固 刚 学 到 的 知识 并 为 学 习 新 知识 做 
好 准备 。 






















































































Python 初探 | 11 


(1) 如 果 你 还 没有 安装 Python 3， 现 在 就 立刻 动手 。 有 具体 方法 请 阅读 附录 D。 

(2) 启动 Python 3 交互 式 解 释 器 。 再 说 一 次 ， 有 具体 方法 请 阅读 附录 D。 它 会 打印 出 儿 行 信息 
和 一 行 >>>， 这 是 你 输入 Python 命令 的 提示 符 。 

(3) 随便 玩 玩 解释 器 。 可 以 用 它 来 计算 8 * 9， 按 下 回 车 来 查看 结果 ，Python 应 该 会 打印 出 
72。 

(4) 输入 数字 47 并 按 下 回 车 ， 解 释 器 有 没有 在 下 一 行 打印 出 47 ? 

(3) 现在， 输入 print(47) 并 按 下 回 车 ， 解 释 器 有 没有 在 下 一 行 打印 出 47 ? 









































Python 基本 元 素 ; 数字 、 字 符 串 和 变量 


本 章 会 从 Python 最 基本 的 内 置 数 据 类 型 开始 学 习 ， 这 些 类 型 包括 : 


。 布尔 型 (表示 真 假 的 类 型 ， 仅 包含 True 和 False 两 种 取 值 ) 

。 人 整 型 (整数 ， 例 如 42、169069069) 

。 浮 点 型 (小 数 ， 例 如 3.14159， 或 用 科学 计数 法 表示 的 数字 ， 例 如 1.9e8， 它 表示 1 乘 
以 10 的 8 次 方 ， 也 可 写作 100000000.0) 

字符 串 型 〈 字 符 组 成 的 序列 ) 

些 基 本 类 型 就 像 组 成 Python 的 原子 一 样 。 本 章 将 学 习 如 何 单独 使 用 这 些 基 本 “原子 ”， 
第 3 章 则 会 介绍 如 何 将 这 些 “原子 ”组 合成 更 大 的 “分 子 ”。 

每 一 种 类 型 都 有 自己 的 使 用 规则 ， 计 算 机 对 它们 的 处 理 方式 也 不 尽 相 同 。 此 外 我 们 还 会 学 
到 变量 的 概念 “与 实际 数据 相关 联 的 名 字 ， 后 面 有 更 详细 的 介绍 )。 

本 章 中 的 代码 虽然 都 只 是 小 的 片段 ， 但 它们 都 是 有 效 的 Python 程序 。 为 了 方便 快速 测试 ， 
我 们 将 使 用 Python 的 交互 式 解 释 器 ， 这 样 在 输入 代码 的 同时 就 可 以 获得 执行 结果 。 尝 试 在 
你 自己 搭建 的 Python 环境 中 运行 书 中 的 代码 片段 ， 它 们 会 由 提示 符 >>> 标 出 。 第 4 章 将 开 
始 编写 能 独立 执行 的 Python 程序 。 


2.1 变量 、 名 字 和 对 和 象 








这 
而 

















Python 里 所 有 数据 一 一 布尔 值 、 整 数 、 浮 点 数 、 字 符 串 ， 其 至 大 型 数据 结构 、 函 数 以 及 程 
序 都 是 以 对 象 (object) 的 形式 存在 的 。 这 使 得 Python 语言 具有 很 强 的 统一 性 (还 有 




















许多 其 他 有 用 的 特性 ) ， 而 这 恰恰 是 许多 其 他 语言 所 缺少 的 。 
对 象 就 像 一 个 塑料 盒子 ， 里 面 装 的 是 数据 (图 2-1)。 对 象 有 不 同类 型 ， 例 如 布尔 型 和 整 





， 类 型 决定 了 可 以 对 它 进行 的 操作 。 现 实生 活 中 的 “陶器 ”会 暗含 一 些 信息 (例如 它 可 
注意 不 要 掉 到 地 上 ， 等 等 )。 类 似 地 ，Python 中 一 个 类 型 为 int 的 对 象 会 告诉 你 : 
a i 











图 2-1: 对 象 就 像 一 个 盒子 


对 象 的 类 型 还 决定 了 它 装着 的 数据 是 允许 被 修改 的 变量 (可 变 的 ) 还 是 不 可 被 修改 的 常量 
(不 可 变 的 )。 你 可 以 把 不 可 变 对 象 想象 成 一 个 透明 但 封闭 的 盒子 : 你 可 以 看 到 里 面 装 的 数 
据 ， 但 是 无 法 改变 它 。 类 似 地 ， 可 变 对 象 就 像 一 个 开 着 口 的 盒子 ， 你 不 仅 可 以 看 到 里 面 的 
数据 ， 还 可 以 拿 出 来 修改 它 ， 但 你 无 法 改变 这 个 盒子 本 身 ， 即 你 无 法 改变 对 象 的 类 型 。 


Python 是 强 类 型 的 (strongly typed)， 你 永远 无 法 修改 一 个 已 有 对 象 的 类 型 ， 即 使 它 包含 的 
值 是 可 变 的 (图 2-2)。 





























图 2-2: Strong Typing 不 是 指 用 力 襄 打 键盘 


编程 语言 允许 你 定义 变量 (variable)。 所 谓 变 量 就 是 在 程序 中 为 了 方便 地 引用 内 存 中 的 值 
而 为 它 取 的 名 称 。 在 Python 中 ， 我 们 用 = 来 给 一 个 变量 赋值 。 


我 们 都 在 数学 课 上 学 过 = 代表 “等 于 "， 那 么 为 什么 计算 机 语言 《包括 
Python) 要 用 = 代表 赋值 操作 呢 ? ee 样 的 
逻辑 上 能 代表 赋值 操作 的 键 ， 与 其 他 键 相 比 ，= 显得 相对 不 那么 令 人 困惑 ， 
而 在 程序 中 ， 赋 值 出 现 的 频率 又 要 远 远 超过 等 于 ， 因 此 把 = 分 给 了 赋值 操作 
来 使 用 。 
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下 面 这 段 仅 两 行 的 Python 程序 首先 将 整数 7 赋值 给 了 





>>> a = 7 
>>> print(a) 


-是 - 
变量 a， 


之 后 又 将 a 的 值 打印 了 出 





注意 ，Python 中 的 变量 有 一 个 非常 重要 的 性 质 : 它 仅 仅 是 一 个 名 字 。 赋 值 操作 并 不 会 实际 
复制 值 ， 它 只 是 为 数据 对 象 取 个 相关 的 名 字 。 名 字 是 对 对 象 的 引用 而 不 是 对 象 本 身 。 你 可 


以 把 名 字 想 象 成 贴 在 盒子 上 的 标签 ( 见 





图 2-3) 。 














图 2-3， 贴 在 对 象 上 的 名 字 


试 着 在 交互 式 解释 器 中 执行 下 


(1) 和 之 前 一 样 ， 将 了 赋值 
(2) 打 印 a 的 值 ， 











看 的 操作 





























给 名 称 a， 这 样 就 成 功 创建 了 一 个 包含 整数 7 的 对 象 ， 





(3) 将 a 赋值 给 pb， 这 相当 于 给 刚刚 创建 的 对 象 又 贴 上 了 标签 b; 











(4) 打印 b 的 值 。 





>>> a= 7 
>>> print(a) 
7 

>>>b=a 
>>> print(b) 
7 








名 : type( thing )。 试 试 对 不 同 的 字 国 
type 操作 : 


>>> type(a) 
<class 'int'> 
>>> type(b) 
<class 'int'> 
>>> type(58) 
<class 'int'> 
>>> type(99.9) 
<class 'float'> 
>>> type('abc') 
<class 'str'> 











在 Python 中 ， 如 果 想 知道 一 个 对 象 ( 例 如 一 个 变量 或 者 一 个 字 





掉 值 ) 的 类 型 ， 可 以 使 用 语 

















i 值 (58、99.9、abc) 以 及 不 同 的 变量 (a、b) 执行 


类 (class) 是 对 象 的 定义 ， 第 6 章 会 详细 介绍 。 在 Python 中 ,“ 类 ”和 “类 型 ”一 般 不 加 
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。 下 划 线 (_) 


名 字 不 允许 以 数字 开头 。 此 外 ，Python 中 以 下 划 线 开头 的 名 字 有 特殊 的 含义 (第 4 章 会 解 
释 )。 下 面 是 一 些 合法 的 名 字 : 









































。 a 

。 al 

。 abc 95 

。 _abc 

。 _1a 

下 面 这 些 名 字 则 是 非法 的 : 

。 1 

。 1a 

. 二 

最 后 要 注意 的 是 ， 不 要 使 用 下 面 这 些 词 作为 变量 名 ， 它 们 是 Python 保留 的 关键 字 : 
False class finally is return 
None continue for Lambda try 
True def from nonLocaL while 
and del global not with 
as elif if or yield 
assert else import pass 
break except in raise 











这 些 关键 字 以 及 其 他 的 一 些 标点 符号 是 用 于 描述 Python 语法 的 。 在 本 书 中 ， 你 会 慢 慢 学 到 
它们 各 自 的 作用 。 


2.2 ”数字 


Python 本 身 支 持 整 数 
1.87e4)。 你 可 以 对 这 些 





( 比 > 5 和 1600000000) 以 及 浮 点 数 (比如 3.1416、14.99 和 
数字 进行 下 表 中 的 计算 。 











运算 符 描述 示例 运算 结果 
+ 加 法 5+8 13 
减法 90 - 19 80 
乘法 4*7 28 
/ 浮 点 数 除法 7 3.5 
// 整数 除法 7//2 3 








2 章 


a 
潍 





运算 符 描述 示例 运算 结果 
% 模 〈 求 余 ) 7%3 1 
过 3 xx 4 81 


接 下 来 会 给 你 展示 一 些 示例 ， 这 些 示例 体现 了 Python 作为 一 个 计算 机 器 的 非凡 特性 。 


2.2.1 整数 


任何 仅 含 数字 的 序列 在 Python 中 都 被 认为 是 整数 ， 

















Sm 3 
5 
你 可 以 单独 使 用 数字 零 (6) : 
>>> 0 
0 
但 不 能 把 它 作 为 前 级 放 在 其 他 数字 前 面 : 
>>> 05 
File "<stdin>", line 1 
05 


SyntaxError: invalid token 


这 是 你 第 一 次 看 见 Python 异常 一 一 程序 错误 。 在 上 面 的 例子 中 ， 解 释 器 抛 
出 了 一 个 警告 ， 提 示 95 是 一 个 “非法 标识 ”(invalid token) 。2.2.3 节 会 解释 
这 个 警告 的 意义 。 你 会 在 本 书 中 见 到 许多 种 异常 ， 这 是 Python 主要 的 错误 处 
理 机 制 。 
一 个 数字 序列 定义 了 一 个 正 整数 。 你 也 可 以 显 式 地 在 前 面 加 上 正 号 +， 这 不 会 使 数字 发 生 
任何 改变 : 

>>> 123 

123 

>>> +123 

123 
在 数字 前 添加 负 号 - 可 以 定义 一 个 负数 : 

>>> -123 

-123 
你 可 以 像 使 用 计算 器 一 样 使 用 Python 来 进行 常规 运算 。Python 支持 的 运算 参见 之 前 的 表 
格 。 试 试 进行 加 法 和 减法 运算 ， 运 算 结 果 和 你 预期 的 一 样 : 
























































加 
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>>> 4 - 10 


可 以 连续 运算 任意 个 数 : 


>>> 5+9+3 

















17 
>>> 4+3 2 1+6 
10 
格式 提示 : 数字 和 运算 符 之 间 的 空格 不 是 强制 的 ， 你 也 可 以 写成 下 面 这 种 格式 : 
>>> 5+9 + 3 
17 


只 不 过 添加 空格 会 使 代码 看 起 来 更 规整 更 便于 阅读 。 
乘法 运算 的 实现 也 很 直接 : 


除法 运算 比较 有 意思 ， 可 能 与 你 预期 的 有 些 出 入 ， 因 为 Python 里 有 两 种 除法 : 


。 / 用 来 执行 浮 点 除法 (十进制 小 数 ) 
。 // 用 来 执行 整数 除法 (整除) 


与 其 他 语言 不 同 ， 在 Python 中 即使 运算 对 象 是 两 个 整数 ， 使 用 / 仍 会 得 到 浮 点 型 的 结果 : 


>>> 9 / 5 
1.8 


使 用 整除 运算 得 到 的 是 一 个 整数 ， 余 数 会 被 截 去 : 


>>> 9 // 5 
1 


如 果 除数 为 0， 任 何 一 种 除法 运算 都 会 产生 Python 异常 : 


>>> 5 / 0 
Traceback (most recent call Last) : 

File "<stdin>", line 1, in <module> 
ZeroDivisionError: division by zero 
>>> 7 // 0 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ZeroDivisionError: integer division or modulo by z 


之 前 的 例子 中 我 们 都 在 使 用 立即 数 进行 运算 ， 你 也 可 以 在 运算 中 将 立即 数 和 已 赋值 过 的 变 
量 混合 使 用 : 


>>> a = 95 
>>> a 











大 
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95 


>>> a -3 
































92 
上 面 代码 中 出 现 了 a - 3， 但 我 们 并 没有 将 结果 赋值 给 as， 因此 a 的 值 并 未 发 生 改 变 : 
>>> 9 
95 


如 有 果 你 想 要 改变 a 的 值 ， 可 以 这 样 写 : 


>>> a=a -3 
>>> a 


92 
对 于 初学 者 来 说 ， 上 面 这 行 式 子 可 能 很 费解 ， 因 为 小 学 的 数学 知识 让 我 们 根深 蒂 固 地 认为 
= 代表 等 于 ， 因 此 上 面 的 式 子 显然 是 不 成 立 的 。 但 在 Python 里 并 非 如 此 ，Python 解释 器 会 
首先 计算 = 右 侧 的 表达 式 ， 然 后 将 其 结果 赋值 给 左 侧 的 变量 。 
试 着 这 样 理解 看 看 是 否 有 帮助 。 
。 计算 a-3 
。 将 运算 结果 保存 在 一 个 临时 变量 中 
。 将 这 个 临时 变量 的 值 喷 值 给 a: 


>>> a = 95 
>>> temp =a -3 
>>> a = temp 


因此 ， 当 输入 : 
>>> a=a -3 
Python 实际 上 先 计 算 了 右 侧 的 减法 ， 暂 时 记 住 运算 结果 ， 然 后 将 这 个 结果 赋值 给 了 = 左 侧 
的 a。 这 种 写法 比 使 用 临时 变量 要 更 加 迅速 、 简 洁 。 
你 还 可 以 进一步 将 运算 过 程 与 赋值 过 程 进行 合并 ， 只 需 将 运算 符 放 到 = 前 面 。 例 如 ，a -= 


3 等 价 于 a =a- 3: 






























































>>> a = 95 
>>> a -= 3 
>>> a 


92 


下 面 的 代码 等 价 于 执行 a= a + 8: 


>>> a += 8 














>>> 9a 


100 


以 此 类 推 ， 下 面 的 代码 等 价 于 a = a * 2: 


>>> a *= 2 

















>>> 9a 


200 
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间 


再 试 试 序 点 型 除法 ， 例 如 a = a / 3: 


>>> a /= 3 
>>> a 


66.66666666666667 


接着 将 13 赋值 给 a， 然 后 试 试 执行 a = a // 4 (整数 除法 ) 的 简化 版 : 


>>> a = 13 
>>> a //= 4 
>>> a 


3 
百 分 号 % 在 Python 里 有 多 种 用 途 ， 当 它 位 于 两 个 数字 之 间 时 代表 求 模 运算 ， 得 到 的 结果 是 
第 一 个 数 除 以 第 二 个 数 的 余数 : 


>>> 9%5 
4 


使 用 下 面 的 方法 可 以 同时 得 到 余数 和 商 ; 
>>> divmod(9,5) 
C1 4) 

或 者 你 也 可 以 分 别 计算 : 


>>> 9 // 5 
1 
>>> 9%5 
4 


上 面 的 代码 出 现 了 一 些 你 没 见 过 的 新 东西 :一 个 叫 作 divmod 的 函数 。 这 个 国 数 接受 了 两 个 
整数 : 9 和 5， 并 返回 了 一 个 包含 两 个 元 素 的 结果 ， 我 们 称 这 种 结构 为 元 组 (tuple)。 第 3 
章 会 学 习 元 组 的 使 用 ， 而 关于 函数 的 内 容 将 在 第 4 章 进行 讲解 。 


2.2.2 ”优先 级 
想 一 想 下 面 的 表达 式 会 产生 什么 结果 ? 

>>>2+3*4 
如 果 你 先进 行 加 法 运算 2 + 3 = 5， 然 后 计算 5 * 4， 最 终 得 到 20。 但 如 果 你 先进 行 乘法 运 
算 ，3 * 4 = 12， 接 着 2 + 12， 结 果 等 于 14。 与 其 他 编程 语言 一 样 ， 在 Python 里 ， 乘 法 的 
优先 级 要 高 于 加 法 ， 因 此 第 二 种 运算 结果 是 正确 的 : 

>>> 2 +3x* 4 

14 
如 何 了 解 优 先 级 规则 ? 我 在 附录 下 中 为 你 准备 了 一 张 优 先 级 表 ， 但 在 实际 编程 中 我 几乎 从 
来 没有 查看 过 它 ， 因 为 我 们 总 可 以 使 用 括号 来 保证 运算 顺序 与 我 们 期 望 的 一 致 : 


>>> 2 + (3 * 4) 
14 




























































































这 样 书写 的 代码 也 可 让 阅读 者 无 需 猜测 代码 的 意图 ， 免 去 了 检查 优先 级 表 的 麻烦 。 


2.2.3 ”基数 


在 Python 中 ， 整 数 默认 使 用 十 进 制 数 (以 10 为 底 )， 除 非 你 在 数字 前 添加 前 级 ， 显 式 地 指 
定 使 用 其 他 基数 (base)。 也 许 你 永远 都 不 会 在 自己 的 代码 中 用 到 其 他 基数 ， 但 你 很 有 可 能 
在 其 他 人 编写 的 Python 代码 里 见 到 它们 。 


我 们 大 多 数 人 都 有 10 根 手 指 10 根 脚趾 (我 家 里 倒是 有 只 猫 多 了 几 根 指头 ， 但 我 从 来 没 见 
过 它 用 自己 的 指头 数 数 )。 因 此 ， 我 们 习惯 这 样 计 数 : 0，1，2，3，4，5，6，7，8，9。 
到 了 9 之后， 我 们 用 光 了 所 有 的 数字 ， 于 是 将 数字 1 放 到 “十 位 >， 并 把 0 放 到 “个 位 ”。 
因此 ，10 代表 “1 个 十 加 0 个 一 ”。 我 们 无 法 用 一 个 字符 代表 数字 “十 ”。 接 着 是 11，12， 
一 直到 19， 然 后 仿照 之 前 的 做 法 ， 我 们 将 新 多 出 来 的 1 加 到 十 位 来 组 成 20 (2 个 十 加 0 个 
一 )， 以 此 类 推 。 

基数 指 的 是 在 必须 进位 前 可 以 使 用 的 数字 的 最 大 数量 。 以 2 为 底 (二 进 制 ) 时 ， 可 以 使 用 
的 数字 只 有 0 和 1。 这 里 的 0 和 十 进 制 的 0 代表 的 意义 相同 ，1 和 十 进 制 的 1 所 代表 的 意 
义 也 相同 。 然 而 以 2 为 底 时 ，1 与 1 相 加 得 到 的 将 是 10 (1 个 二 加 0 个 一 )。 

在 Python 中 ， 除 十 进 制 外 你 还 可 以 使 用 其 他 三 种 进 制 的 数字 : 

。 9b 或 9B8 代表 二 进 制 (以 2 为 底 ) 

。 9o 或 90 代表 八进制 (以 8 为 底 ) 

。 9x 或 0X 代表 十 六 进 制 (以 16 为 底 ) 

Python 解释 器 会 打印 出 它们 对 应 的 十 进 制 整数 。 我 们 来 试 试 这 些 不 同 进 制 的 数 。 首 先是 单 
纯 的 十 进 制 数 字 10， 代 表 “1 个 十 加 0 个 一 ”。 


>>> 10 


10 
接着 ， 试 试 二 进 制 (以 2 为 底 )， 代 表 “1 (和 十进制) 个 二 加 上 0 个 一 ”: 


>>> 0b10 
2 


八进制 (以 8 为 底 ) ， 代 表 “1 (十 进 制 ) 个 八 加 上 0 个 一 ”: 

>>> 0010 

8 
十 六 进 制 〈 以 16 为 底 ) ， 代 表 “1 (十 进 制 ) 个 16 加 上 0 个 一 ”: 

>>> 0x10 

16 
可 能 你 会 好 奇 ， 十 六 进 制 用 的 是 哪 16 个 “数字 ”， 它 们 是 : 0，1，2，3，4，5，6，7，8&， 
9，a，b，c，d，e 以 及 f。 因 此 ，9xa 代表 十 进 制 的 16，9xf 代表 十 进 制 的 15，0xf 加 1 等 
于 9x16 (十 进 制 16)。 
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为 什么 要 使 用 10 以 外 的 基数 ? 因为 它们 在 进行 位 运算 时 非常 有 用 。 有 关 位 运算 以 及 不 同 
进 制 之 间 的 转换 将 在 第 7 章 进行 介绍 。 


2.2.4 ”类 型 转换 
我 们 可 以 方便 地 使 用 int() 函数 将 其 他 的 Python 数据 类 型 转换 为 整 型 。 它 会 保留 传人 数据 
的 整数 部 分 并 售 去 小 数 部 分 。 


Python 里 最 简单 的 数据 类 型 是 布尔 型 ， 它 只 有 两 个 可 选 值 : True 和 False。 当 转换 为 整数 
时 ， 它 们 分 别 代表 1 和 9: 


>>> int(True) 
1 
>>> int(False) 
0 


当 将 浮 点 数 转 换 为 整数 时 ， 所 有 小 数 点 后 面 的 部 分 会 被 舍 去 : 


>>> int(98.6) 
98 

>>> int(1.0e4) 
10000 


也 可 以 将 仅 包 含 数字 和 正 负 号 的 字符 串 (如 果 你 不 知道 字符 串 是 什么 ， 不 用 着 急 ， 先 往 后 
读 ， 很 快 就 会 了 解 ) 转换 为 整数 ， 下 面 有 儿 个 例子 : 


>>> int('99') 
99 
>>> int('-23') 
-23 
>>> int('+12') 
12 


将 一 个 整数 转换 为 整数 没有 太 多 意义 ， 这 既 不 会 产生 任何 改变 也 不 会 造成 任何 损失 : 


>>> int(12345) 
12345 


如 果 你 试图 将 一 个 与 数字 无 关 的 类 型 转化 为 整数 ， 会 得 到 一 个 异常 : 


>>> int('99 bottles of beer on the wall') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: invalid literal for int() with base 10: '99 bottles of beer on the walLL' 
>>> int('') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: invalid literal for int() with base 10: "' 


管 上 面 例子 中 的 字符 串 的 确 是 以 有 效 数字 (99) 开头 的 ,但 它 没有 就 此 截止 ,后面 的 内 
不 是 纯 数字 ， 无 法 被 int() 函数 识别 ， 因 此 抛 出 异常 。 
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第 4 章 会 详细 介绍 异常 。 现 在 ， 你 只 需 知 道 异常 是 Python 处 理 程序 错误 的 方 
式 (不 像 有 些 语 言 不 做 处 理 直 接 造 成 程序 崩溃 ) 。 在 本 书 里 ， 我 会 经 常 展示 
各 种 出 现 异 常 的 情况 ， 而 不 是 假定 程序 总 是 正确 运行 的 ， 这 样 你 可 以 更 加 了 


解 Python 是 如 何 处 理 程序 错误 的 。 
int() 可 以 接受 浮 点 数 或 由 数字 组 成 的 字符 串 ， 但 无 法 接受 包含 小 数 点 或 指数 的 字符 串 : 


>>> int('98.6') 
Traceback (most recent call Last) : 
File "<stdin>", line 1，in <moduLe> 
ValueError: invalid literal for int() with base 10: '98.6' 
>>> int('1.0e4') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: invalid literal for int() with base 10: '1.0Qe4' 


如 果 混 合 使 用 多 种 不 同 的 数字 类 型 进行 计算 ，Python 会 自动 地 进行 类 型 转换 : 


>>> 4 + 7.0 
11.0 


与 整数 或 浮 点 数 混 合 使 用 时 ， 布 尔 型 的 False 会 被 当 作 0 或 6.9，Ture 会 被 当 作 1 或 1.0: 


>>> True + 2 

3 

>>> False + 5.0 
5.0 


2.2.5 一 个 int 型 有 多 大 
在 Python 2 里 ， 一 个 int 型 包含 32 位 ， 可 以 存储 从 -2 147 483 648 到 2 147 483 647 的 整数 。 


一 个 Long 型 会 占用 更 多 的 空间 : 64 位 ， 可 以 存储 从 -9 223 372 036 854 775 808 到 9 223 
372 036 854 775 807 的 整数 。 


到 了 Python 3，long 类 型 已 不 复 存 在 ， 而 int 类 型 变 为 可 以 存储 任意 大 小 的 整数 ， 甚 至 超 
过 64 位 。 因 此 ， 你 可 以 进行 像 下 面 一 样 计算 《19**169 被 赋值 给 名 为 googol 的 变量 ， 这 是 
Google 最 初 的 名 字 ， 但 由 于 其 拼写 困难 而 被 现在 的 名 字 所 取代 ) : 


>>> 

>>> googol = 10**100 

>>> googol 
100000000000000000000000000000000000000000000000000000000000000000000000000000 
00000000000000000000000 

>>> googol * googol 
100000000000000000000000000000000000000000000000000000000000000000000000000000 
000000000000000000000000000000000000000000000000000000000000000000000000000000 
000000000000000000000000000000000000000000000 


在 许多 其 他 编程 语言 中 ， 进 行 类 似 上 面 的 计算 会 造成 整数 溢出 ， 这 是 因为 计算 中 的 数字 或 
结果 需要 的 存储 空间 超过 了 计算 机 所 提供 的 〈 例 如 32 位 或 64 位 )。 在 程序 编写 中 ， 溢 出 
会 产生 许多 负面 影响 。 而 Python 在 处 理 超 大 数 计算 方面 不 会 产生 任何 错误 ， 这 也 是 它 的 一 
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加 


个 加 分 点 。 


2.2.6 浮 点 数 


整数 全 部 由 数字 组 成 ， 而 浮 点 数 (在 Python 里 称 为 foat) 包含 非 数 字 的 小 数 点 。 浮 点 数 与 
整数 很 像 : 你 可 以 使 用 运算 符 (+、-、*、/、//、** 和 %) 以 及 divmod() 函数 进行 计算 。 


使 用 float() 函数 可 以 将 其 他 数字 类 型 转换 为 浮 点 型 。 与 之 前 一 样 ， 布 尔 型 在 计算 中 等 价 
于 1.0 和 0.0: 

>>> fLoat(True) 

1.0 


>>> float(False) 
0.0 


将 整数 转换 为 浮 点 数 仅仅 需要 添加 一 个 小 数 点 : 


>>> float(98) 
98.0 

>>> float('99') 
99.0 


此 外 ， 也 可 以 将 包含 有 效 浮 点 数 (数字 、 正 负 号 、 小 数 点 、 指 数 及 指数 的 前 级 e。) 的 字符 
串 转换 为 真正 的 浮 点 型 数字 : 


>>> float('98.6') 








98.6 

>>> float('-1.5') 
-1.5 

>>> float('1.0e4') 
10000.0 


2.2.7 ”数学 函数 
Python 包含 许多 常用 的 数学 函数 ， 例 如 平方 根 、 余 弦 函 数 ， 等 等 。 这 些 内 容 被 放 到 了 附录 
C， 在 那里 我 还 会 讨论 Python 的 科学 应 用 。 


2.3 ”字符 串 


不 是 程序 员 的 人 经 常会 认为 程序 员 一 定 都 非常 擅长 数学 ， 因 为 他 们 整 天 和 数字 打交道 。 但 
事实 上 ， 大 多 数 程序 员 在 处 理 字符 串 上 花费 的 时 间 要 远 远 超过 处 理 数 字 的 时 间 。 逻 辑 思 维 
(以 及 创造 力 ) 的 重要 性 要 远 远 超过 数学 能 

对 Unicode 的 支持 使 得 Python 3 可 以 包含 世界 上 任何 书面 语言 以 及 许多 特殊 符号 。 对 于 
Unicode 的 支持 是 Python 3 从 Python 2 分 离 出 来 的 重要 原因 之 一 ， 也 正 是 这 一 重要 特性 促 
使 人 们 转向 使 用 Python 3。 处 理 Unicode 编码 有 时 会 非常 困难 ， 因此 我 将 相关 内 容 分 散在 
了 本 书 的 不 同 地方 。 而 本 节 只 会 使 用 ASCII 编码 的 例子 。 


字符 串 型 是 我 们 学 习 的 第 一 个 Python 序列 类 型 ， 它 的 本 质 是 字符 序列 。 




































































与 其 他 语言 不 同 的 是 ，Python 字符 串 是 不 可 变 的 。 你 无 法 对 原 字符 串 进 行 修改 ， 但 可 以 将 
字符 串 的 一 部 分 复制 到 新 字符 串 ， 来 达到 相同 的 修改 效果 。 很 快 你 就 会 学 到 如 何 实现 。 


2.3.1 使 用 引号 创建 
将 一 系列 字符 包 误 在 一 对 单 引号 或 一 对 双 引号 中 即 可 创建 字符 串 ， 就 像 下 面 这 样 : 


>>> 'Snap’ 
"Snap ' 

>>> "Crackle" 
'Crackle' 


交互 式 解释 器 输出 的 字符 串 永 远 是 用 单 引 号 包 夺 的 ， 但 无 论 使 用 哪 种 引号 ，Python 对 字符 
串 的 处 理 方式 都 是 一 样 的 ， 没 有 任何 区 别 。 


既然 如 此 ， 为 什么 要 使 用 两 种 引号 ? 这 么 做 的 好 处 是 可 以 创建 本 身 就 包含 引号 的 字符 串 ， 
而 不 用 使 用 转 义 符 。 可 以 在 双 引 号 包 衷 的 字符 串 中 使 用 单 引 号 ， 或 者 在 单 引 号 包 庄 的 字符 
串 中 使 用 双 引 号 : 


>>> "'Nay,' said the naysayer." 

"'Nay,' said the naysayer." 

>>> 'The rare double quote in captivity: " 

'The rare double quote in captivity: ".' 

>>> 'A "two by four" is actually 1 1/2" x 3 1/2"." 

'A "two by four is" actually 1 1/2" x 3 1/2"." 

>>> "'There's the man that shot my paw!' cried the limping hound." 
"'There's the man that shot my paw!' cried the limping hound." 


你 还 可 以 使 用 连续 三 个 单 引号 '''， 或 者 三 个 双 引 号 """ 创建 字符 串 : 



























































>>> "Boom! ' 
“Boom ' 
>>> Eek 
"Eekl! 





三 元 引号 在 创建 短 字 符 串 时 没有 什么 特殊 用 处 。 它 多 用 于 创建 多 行 字符 串 。 下 面 的 例子 
中 ， 创 建 的 字符 串 引 用 了 Edward Lear 的 经 典 诗歌 : 
>>> poem = '''There was a Young Lady of Norway， 
. Who casually sat in a doorway; 
.. When the door squeezed her flat, 
. She exclaimed, "What of that?" 


. This courageous Young Lady of Norway.''! 
>>> 


(上 面 这 段 代码 是 在 交互 式 解释 器 里 输入 的 ， 第 一 行 的 提示 符 为 >>>， 后 面 行 的 提示 符 
为 …:， 直 到 再 次 输入 三 元 引号 暗示 赋值 语句 的 完结 ， 此 时 光标 跳 转 到 下 一 行 并 再 次 以 >>> 
提示 输入 。) 

如 果 你 尝试 通过 单独 的 单 双 引号 创建 多 行 字符 串 ， 在 你 完成 第 一 行 并 按 下 回 车 时 ，Python 
会 弹出 错误 提示 : 































































































Python 基本 元 素 : 数字 、 字 符 串 和 变量 | 25 





>>> poem = 'There was a young Lady of Norway， 
File "<stdin>", line 1 

poem = 'There was a young lady of Norway, 

八 


SyntaxError: EOL while scanning string literal 





在 三 元 引号 包 于 的 字符 串 中 ， 每 行 的 换行 符 以 及 行 首 或 行 末 的 空格 都 会 被 保留 ; 
>>> poem2 = '''I do not Like thee, Doctor Fell. 


The reason why, I cannot tell. 
But this I know，and know full well: 
I do not like thee, Doctor Fell. 
>>> print(poem2) 
I do not like thee, Doctor Fell. 
The reason why, I cannot tell. 
But this I know, and know full well: 
I do not like thee, Doctor Fell. 





值得 注意 的 是 ，print() 函数 的 输出 与 交互 式 解 释 器 的 自动 响应 输出 存在 一 些 差 异 : 
>>> poem2 


'I do not like thee，Doctor Fell.\n The reason why, I cannot tell.\n But 
this I know, and know full well:\n I do not like thee, Doctor Fell.\n' 


print() 会 把 包 囊 字符 串 的 引号 截 去 ， 仅 输出 其 实际 内 容 ， 易 于 阅读 。 它 还 会 自动 地 在 各 
个 输出 部 分 之 间 添 加 空格 ， 并 在 所 有 输出 的 最 后 添加 换行 符 : 


>>> print(99, 'bottles', 'would be enough.') 
99 bottles would be enough. 


如 果 你 不 希望 print() 自动 添加 空格 或 换行 ， 随 后 将 学 会 如 何 避 免 它 们 。 
解释 器 可 以 打印 字符 串 以 及 像 \n 的 转 义 符 ， 关 于 转 义 符 的 内 容 你 会 在 2.3.3 节 看 到 。 


最 后 要 指出 的 是 Python 允许 空 囊 的 存在 ， 它 不 包含 任何 字符 且 完 全 合法 。 你 可 以 使 用 前 面 
提 到 的 任意 一 种 方法 创建 一 个 空 串 : 





























mn 
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>>> 


为 什么 会 用 到 空 字符 串 ? 有 些 时 候 你 想 要 创建 的 字符 串 可 能 源 自 另 一 字符 串 的 内 容 ， 这 时 
需要 先 创建 一 个 空白 的 模板 ， 也 就 是 一 个 空 字符 串 。 


>>> bottles = 99 
>>> base = ' 








>>> base += 'current inventory: ” 
>>> base += str(bottles) 

>>> base 

"current inventory: 99 


2.3.2 ”使 用 str() 进 行 类 型 转换 
使 用 str() 可 以 将 其 他 Python 数据 类 型 转换 为 字符 串 : 


>>> str(98.6) 
"98.6' 

>>> str(1.0e4) 
"10000.0， 

>>> str(True) 
"True' 





当 你 调用 print() 函数 或 者 进行 字符 串 差 值 (string interpolation) 时 ，Python 内 部 会 
使 用 str() 将 非 字符 串 对 象 转换 为 字符 串 。 第 7 章 会 了 解 到 相关 内 容 。 


2.3.3 ”使 用 \ 转 义 
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Python 允许 你 对 某 些 字符 进行 转 义 操作 ， 以 此 来 实现 一 些 难 以 单纯 用 字符 描述 的 效果 。 在 











字符 的 前 面 添 加 反 斜 线 符号 \ 会 使 该 字符 的 意义 发 生 改 变 。 最 常见 的 转 义 符 是 \n， 它 代表 











换行 符 ， 便 于 你 在 一 行内 创建 多 行 字符 串 。 


>>> palindrome = 'A man,\nA plan,\nA canal:\npanama.' 
>>> print(palindrome) 

A man, 

A plan, 

A canal: 

Panama. 


转 义 符 \t (tab 制 表 符 ) 常用 于 对 齐 文本 ， 之 后 会 经 常见 到 : 


>>> print('\tabc') 
abc 

>>> print('a\tbc') 

a bc 

>>> ne 

ab 

>>> ey abc\t') 

abc 














(上 面 例子 中 ， 最 后 一 个 字符 串 的 末尾 包含 了 一 个 制 表 符 ， 当 然 你 无 法 在 打印 的 结果 中 看 














到 它 。) 











有 时 你 可 能 还 会 用 到 \， 和 \" 来 表示 单 、 双 引号 ， 尤 其 当 该 字符 串 由 相同 类 型 的 引号 包 圳 时 : 








>>> testimony = "\"I did nothing!\" he said. \"Not that either! Or the other 
thing.\"" 

>>> print(testimony) 

"I did nothing!" he said. "Not that either! Or the other thing." 

>>> fact = "The world's Largest rubber duck was 54'2\" by 65'7\" by 105'" 
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>>> print(fact) 
The world's largest rubber duck was 54'2" by 65'7" by 105 


如 果 你 需要 输出 一 个 反 斜 线 字符 ， 连 续 输入 两 个 反 斜 线 即 可 : 


>>> Speech = 'Today we honor our friend, the backslash: \\.' 
>>> print(speech) 
Today we honor our friend, the backslash: \. 


2.3.4 ”使 用 + 拼接 
在 Python 中 ， 你 可 以 使 用 + 将 多 个 字符 串 或 字符 串 变量 拼接 起 来 ， 就 像 下 面 这 样 ， 


>>> 'Release the kraken! ' + 'At oncel 
"ReLease the kraken! At oncel! 


也 可 以 直接 将 一 个 字面 字符 囊 ( 非 字 符 串 变量 ) 放 到 另 一 个 的 后 面 直接 实现 拼接 : 


>>> "My word! " "A gentleman caller!" 
'My word! A gentLeman caller!' 


进行 字符 串 拼接 时 ，Python 并 不 会 自动 为 你 添加 空格 ， 需 要 显示 定义 。 但 当 我 们 调用 
print() 进行 打印 时 ，Python 会 在 各 个 参数 之 间 自 动 添加 空格 并 在 结尾 添加 换行 符 : 


























>>> a = 'Duck.’' 
>>> b = a 
>>> C = 'Grey Duck!' 


>>> a + b+< 
"Duck.Duck.Grey Duck! 
>>> print(a, b, c) 
Duck. Duck. Grey Duck! 


2.3.5 ”使 用 * 复 制 
使 用 * 可 以 进行 字符 串 复 制 。 试 着 把 下 面 这 几 行 输入 到 交互 式 解 释 器 里 ， 看 看 结果 是 
什么 














>>> start = 'Na " * 4+'\n' 
>>> middle = 'Hey " * 3 + Nn' 
>>> end = 'Goodbye.' 


>>> print(start + start + middle + end) 


2.3.6 ”使 用 [提取 字符 


在 字符 串 名 后 面 添加 []， 并 在 括号 里 指定 偏 移 量 可 以 提取 该 位 置 的 单个 字符 。 第 一 个 字符 
(最 左 侧 ) 的 偏 移 量 为 0， 下 一 个 是 1， 以 此 类 推 。 最 后 一 个 字符 (最 右 侧 ) 的 偏 移 量 也 可 
以 用 -1 表示， 这样 就 不 必 从 头 数 到 尾 。 偏 移 量 从 右 到 左 紧 接着 为 -2、-3， 以 此 类 推 。 


>>> Letters = 'abcdefghijklmnopqrstuvwxyz' 
>>> Letters[0] 
‘a 

>>> letters[1] 


'b， 





























28 | 第 2 章 


>>> Letters[-1] 
>>> Letters[-2] 


>>> Letters[25] 

71 

>>> letters[5] 

wh 
如 果 指 定 的 偏 移 量 超过 了 字符 串 的 长 度 〈 记 住 ， 偏 移 量 从 0 开始 增加 到 字符 串 长 度 -1)， 
会 得 到 一 个 异常 提醒 : 

>>> Letters[100] 

Traceback (most recent call last): 


File "<stdin>", line 1, in <moduLe> 
IndexError: string index out of range 


位 置 索引 在 其 他 序列 类 型 (列表 和 元 组 ) 中 的 使 用 也 是 如 此 ， 你 将 在 第 3 章 见 到 。 


由 于 字符 串 是 不 可 变 的 ， 因 此 你 无 法 直接 插入 字符 或 改变 指定 位 置 的 字符 。 看 看 当 我 们 试 
图 将 'Henny' 改变 为 "Penny' 时 会 发 生 什么 : 
>>> name = 'Henny’ 
>>> naume[0] = 'P' 
Traceback (most recent call Last) : 
File "<stdin>", line 1，in <module> 
TypeError: 'str' object does not support item assignment 


为 了 改变 字符 串 ， 我 们 需要 组 合 使 用 一 些 字符 串 国 数 ， 例 如 reptace()， 以 及 分 片 操 作 
(很 快 就 会 学 到 ) : 

>>> name = 'Henny’ 

>>> name.replace('H', 'P') 

"Penny 

>>> 'P' + name[1:] 

"Penny 


2.3.7 使 用 [start:end:step] 分 片 


分 片 操作 (slice) 可 以 从 一 个 字符 串 中 抽取 子 字符 囊 (字符 串 的 一 部 分 )。 我 们 使 用 一 对 方 
括号 、 起 始 偏 移 量 start、 终 止 偏 移 量 end 以 及 可 选 的 步 长 step 来 定义 一 个 分 片 。 其 中 一 
些 可 以 省 略 。 分 片 得 到 的 子 串 包含 从 start 开始 到 end 之 前 的 全 部 字符 。 


。 [:] 提取 从 开头 到 结尾 的 整个 字符 串 

。 [start:] 从 start 提取 到 结尾 

。 [:end] 从 开头 提取 到 end - 1 

。 [start:end] 从 start 提取 到 end - 1 

。 [start:end:step] 从 start 提取 到 end - 1， 每 step 个 字符 提取 一 个 


与 之 前 一 样 ， 偏 移 量 从 左 至 右 从 0、1 开始 ， 依 次 增加 ， 从 右 至 左 从 -1、-2 开始 ， 依 次 减 
小 。 如 果 省 略 start， 分 片 会 默认 使 用 偏 移 量 0 (开头 ) ， 如 果 省 略 end， 分 片 会 默认 使 用 
偏 移 量 -1 (结尾 )。 
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我 们 来 创建 一 个 由 小 写字 母 组 成 的 字符 串 ， 
>>> Letters = 'abcdefghijklmnopqrstuvwxyz' 
仅仅 使 用 : 分 片 等 价 于 使 用 0 : -1 (也 就 是 提取 整个 字符 串 ) : 


>>> letters[:] 
'abcdefghijklmnopqrstuvwxyz' 








二 


下 是 一 个 从 偏 移 量 20 提取 到 字符 串 结尾 的 例子 : 


>>> letters[20:] 
"UVWXyzZ' 


现在 ， 从 偏 移 量 10 提取 到 结尾 : 


>>> letters[10:] 
'klmnopqrstuvwxyz' 


下 一 个 例子 提取 了 偏 移 量 从 12 到 14 的 字符 (Python 的 提取 操作 不 包含 最 后 一 个 偏 移 量 对 
应 的 字符 ) : 


>>> Letters[12:15] 
"mno ' 


提取 最 后 三 个 字符 : 

>>> letters[-3:] 

‘xyz' 
下 面 一 个 例子 提取 了 从 偏 移 量 为 18 的 字符 到 倒数 第 4 个 字符 。 注 意 与 上 一 个 例子 的 区 别 : 
当 偏 移 量 -3 作为 开始 位 置 时 ， 将 获得 字符 x， 而 当 它 作为 终止 位 置 时 ， 分 片 实际 上 会 在 偏 
量 -4 处 停止 ， 也 就 是 提取 到 字符 w: 

>>> Letters[18:-3] 

"StUVW 
接 下 来 ， 试 着 提取 从 倒数 第 6 个 字符 到 倒数 第 3 个 字符 : 


>>> Letters[-6:-2] 
"UVWX' 









































如 果 你 需要 的 步 长 不 是 默认 的 1， 可 以 在 第 二 个 冒号 后 面 进行 指定 ， 就 像 下 面 几 个 例子 
所 示 。 
从 开头 提取 到 结尾 ， 步 长 设 为 7: 


>>> letters[::7] 
"ahov' 


从 偏 移 量 4 提取 到 偏 移 量 19， 步 长 设 为 3: 


>>> letters[4:20:3] 
'"ehkndqt， 


从 偏 移 量 19 提取 到 结尾 ， 步 长 设 为 4: 
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>>> letters[19::4] 
tx 
从 开头 提取 到 偏 移 量 20， 步 长 设 为 5: 


>>> letters[:21:5] 
“afkpu' 


( 记 住 ,分 片 中 end 的 偏 移 量 需 要 比 实际 提取 的 最 后 一 个 字符 的 偏 移 量 多 1 。) 
是 不 是 非常 方便 ? 但 这 还 没有 完 。 如 果 指 定 的 步 长 为 负数 ， 机 智 的 Python 还 会 从 右 到 左 反 
向 进行 提取 操作 。 下 面 这 个 例子 便 从 右 到 左 以 步 长 为 1 进行 提取 : 


>>> letters[-1::-1] 
'Zzyxwvutsrqponmlkjihgfedcba' 


事实 上 ， 你 可 以 将 上 面 的 例子 简化 为 下 面 这 种 形式 ， 结 果 完 全 一 致 : 


>>> letters[::-1] 
'Zzyxwvutsrqponmlkjihgfedcba' 


分 片 操作 对 于 无 效 偏 移 量 的 容忍 程度 要 远大 于 单字 符 提取 操作 。 在 分 片 中 ， 小 于 起 始 位 置 的 
偏 移 量 会 被 当 作 6， 大 于 终止 位 置 的 偏 移 量 会 被 当 作 -1， 就 像 接 下 来 几 个 例子 展示 的 一 样 。 
提取 倒数 50 个 字符 : 


>>> letters[-50:] 
'abcdefghijklmnopqrstuvwxyz' 


提取 从 倒数 第 51 到 倒数 第 50 个 字符 : 


>>> letters[-51:-50] 











尾 




















从 开头 提取 到 偏 移 量 为 69 的 字符 : 


>>> letters[:70] 
"abcdefghijklmnopqrstuvwxyz' 


从 偏 移 量 为 70 的 字符 提取 到 偏 移 量 为 71 的 字符 : 


>>> letters[70:71] 


2.3.8 使 用 Len() 获 得 长 度 


到 目前 为 止 ， 我 们 已 经 学 会 了 使 用 许多 特殊 的 标点 符号 〈 例 如 +) 对 字符 串 进 行 相应 操作 。 
但 标点 符号 只 有 有 限 的 几 种 。 从 现在 开始 ， 我 们 将 学 习 使 用 Python 的 内 置 函 数 。 所 谓 国 数 
指 的 是 可 以 执行 某 些 特定 操作 的 有 名 字 的 代码 。 


Len() 函数 可 用 于 计算 字符 串 包 含 的 字符 数 : 


>>> len(letters) 
26 
>>> empty = "" 
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>>> Len(empty) 
0 
也 可 以 对 其 他 的 序列 类 型 使 用 Len()， 这 些 内 容 都 被 放 在 第 3 章 里 讲解 。 


2.3.9 使 用 spLit() 分 割 


与 广义 函数 len() 不 同 ， 有 些 函 数 只 适用 于 字符 串 类 型 。 为 了 调用 字符 串 函 数 ， 你 需要 输 
入 字符 串 的 名 称 、 一 个 点 号 ， 接 着 是 需要 调用 的 国 数 名 ， 以 及 需要 传人 的 参数 : string. 
function(arguments)。4.7 节 会 学 习 更 多 关于 函数 的 内 容 。 

使 用 内 置 的 字符 串 函 数 split() 可 以 基于 分 隔 符 将 字符 串 分 割 成 由 若干 子 串 组 成 的 列表 。 
所 谓 列表 (list) 是 由 一 系列 值 组 成 的 序列 ， 值 与 值 之 间 由 逗号 隔 开 ， 整 个 列表 被 方 括 号 所 
包 于 。 




















>>> todos = 'get gloves,get mask,give cat vitamins,call ambuLance' 
>>> todos.split(',') 
['get gloves', 'get mask', 'give cat vitamins', 'call ambulance'] 


上 面 例子 中 ， 字 符 串 名 为 todos， 函 数 名 为 spLit()， 传 入 的 参数 为 单一 的 分 隔 符 "，。 如 
果 不 指定 分 隔 符 ， 那 么 spLit() 将 默认 使 用 空白 字符 一 一 换行 符 、 空 格 、 制 表 符 。 


>>> todos.split() 
['get', 'gloves,get', 'mask,give', 'cat', 'vitamins,call', 'ambulance'] 


即使 不 传人 参数 ， 调 用 split() 函数 时 仍 需要 带 着 括号 ， 这 样 Python 才能 知道 你 想 要 进行 
函数 调用 。 


2.3.10 使 用 join() 合 并 


可 能 你 已 经 猜 到 了 ，join() 函数 与 split() 函数 正好 相反 它 将 包含 若干 子 串 的 列表 分 
解 ， 并 将 这 些 子 串 合 成 一 个 完整 的 大 的 字符 串 。join() 的 调用 顺序 看 起 来 有 点 别扭 ， 与 
split() 相反 ， 你 需要 首先 指定 粘 合用 的 字符 串 ， 然 后 再 指定 需要 合并 的 列表 : string. 
join(list)。 因 此 ， 为 了 将 列表 lines 中 的 多 个 子 串 合 并 成 完整 的 字符 串 ， 我 们 应 该 使 用 语 
句 : "\n'.join(lines)。 下 面 的 例子 将 列表 中 的 名 字 通 过 逗号 及 空格 粘 合 在 一 起 : 

>>> crypto_list = ['Yeti', 'Bigfoot', 'Loch Ness Monster'] 

>>> crypto_string = ', '.join(crypto_list) 

>>> print('Found and signing book deals:', crypto_string) 

Found and signing book deals: Yeti, Bigfoot, Loch Ness Monster 


2.3.11 熟悉 字符 串 


Python 拥有 非常 多 的 字符 串 图 数 。 这 一 节 将 探索 其 中 最 常用 的 一 些 。 我 们 的 测试 对 象 是 下 
面 的 字符 串 ， 它 产 自 纽卡斯尔 伯 事 Margaret Cavendish 的 不 朽 名 篇 What Is Liquid?: 


>>> poem = '''AlL that doth flow we cannot liquid name 
Or else would fire and water be the same; 

But that is liquid which is moist and wet 

Fire that property can never get. 

































































大 
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Then 'tis not cold that doth the fire put out 
But 'tis the wet that makes it die, no doubt.'' 


先 做 个 小 热身 ， 试 着 提取 开头 的 13 个 字符 〈 偏 移 量 为 0 到 12) : 


>>> poem[ :13] 
'ALL that doth’ 


这 首 诗 有 多 少 个 字符 呢 ? 〈 计 入 空格 和 换行 符 。) 


>>> Len(poem) 
250 


这 首 诗 是 不 是 以 ALL 开头 呢 ? 


>>> poem.startswith('ALL ' ) 
True 


它 是 否 以 That's all，folks!? 结尾 ? 


>>> poem.endswith('That\'s all, folks!') 
False 


接 下 来 ， 查 一 查 诗 中 第 一 次 出 现 单词 the 的 位 置 ( 偏 移 量 ) : 


>>> Word = 'the' 
>>> poem.find(word) 
73 


以 及 最 后 一 次 出 现 the 的 偏 移 量 : 


>>> poem.rfind(word) 
214 


the 在 这 首 诗 中 出 现 了 多 少 次 ? 


>>> poem.count(word) 
3 


诗 中 出 现 的 所 有 字符 都 是 字母 或 数字 吗 ? 


>>> poem.isalnum() 
False 


并 非 如 此 ， 诗 中 还 包括 标点 符号 。 


2.3.12 ”大 小 写 与 对 齐 方 式 

















>>> setup = 'a duck goes into a bar...' 


将 字符 串 收 尾 的 . 都 删除 掉 : 


>>> setup.strip('.') 
'a duck goes into a bar' 


在 这 一 节 ， 我 们 将 介绍 一 些 不 那么 常用 的 字符 串 函 数 。 我 们 的 测试 字符 串 如 下 所 示 : 
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由 于 字符 串 是 不 可 变 的 ， 上 面 这 些 例子 实际 上 没有 一 个 对 setup 真正 做 了 修 
改 。 它 们 都 仅仅 是 获取 了 setup 的 值 ， 进 行 某 些 操作 后 将 操作 结果 赋值 给 了 
另 一 个 新 的 字符 串 而 已 。 








让 字符 串 首 字母 变 成 大 写 : 


>>> setup.capitalize() 
'A duck goes into a bar...' 


让 所 有 单词 的 开头 字母 变 成 大 写 : 


>>> setup.title() 
'A Duck Goes Into A Bar...' 





让 所 有 字母 都 变 成 大 写 : 


>>> setup.upper() 
'A DUCK GOES INTO A BAR...' 


将 所 有 字母 转换 成 小 写 : 


>>> setup. Lower() 
'a duck goes into a bar...' 


将 所 有 字母 的 大 小 写 转换 : 


>>> setup.swapcase() 
'a DUCK GOES INTO A BAR...' 


再 来 看 看 与 格式 排版 相关 的 函数 。 这 里 ， 我 们 假设 例子 中 的 字符 串 被 排版 在 指定 长 度 (这 
里 是 39 个 字符 ) 的 空间 里 。 
在 30 个 字符 位 居中 : 


>>> setup.center(30) 
a duck goes into a bar... 


左 对 齐 : 


>>> setup.ljust(30) 
'a duck goes into a bar... 


右 对 齐 : 


>>> setup.rjust(30) 
a duck goes into a bar...’ 


第 7 章 更 加 详细 地 介绍 字符 串 格 式 以 及 转换 ， 包 括 如 何 使 用 % 以 及 format()。 


2.3.13 ”使 用 repLace() 替 换 


使 用 replace() 函数 可 以 进行 简单 的 子 串 替换 。 你 需要 传人 的 参数 包括 : 需要 被 替换 的 子 
串 ， 用 于 替换 的 新 子囊 ， 以 及 需要 替换 多 少 处 。 最 后 一 个 参数 如 果 省 略 则 默认 只 替换 第 一 
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次 出 现 的 位 置 : 


>>> setup.replace('duck', 'marmoset') 
'a marmoset goes into a bar...' 


修改 最 多 100 处 : 


>>> setup.replace('a ', 'a famous ', 100) 
'a famous duck goes into a famous bar...’ 


当 你 准确 地 知道 想 要 替换 的 子 串 是 什么 样子 时 ，reptLace() 是 个 非常 不 错 的 选择 。 但 使 用 
时 一 定 要 小 心 ! 在 上 面 第 二 个 例子 中 ， 如 果 我 们 粗心 地 把 需要 替换 的 子 串 写 成 了 单个 字符 
的 'a' 而 不 是 两 个 字符 的 'a ' (a 后 面 跟着 一 个 空格 ) 的 话 ， 会 错误 地 将 所 有 单词 中 出 现 
的 a 也 一 并 替换 了 : 


>>> setup.replace('a', 'a famous'，100) 
'a famous duck goes into a famous ba famousr...'" 


有 时 ， 你 可 能 想 确保 被 替换 的 子 串 是 一 个 完整 的 词 ， 或 者 某 一 个 词 的 开头 ， 等 等 。 在 这 种 
情况 下 ， 你 需要 借助 正则 表达 式 ， 相 关内 容 将 在 第 7 章 进 行 介绍 。 


2.3.14 更 多 关于 字符 串 的 内 容 


Python 还 内 置 了 许多 在 此 没有 涉及 的 字符 串 函 数 ， 其 中 有 一 些 你 可 以 在 之 后 的 儿童 见 到 。 
除 此 之 外 ， 你 可 以 在 标准 文档 链接 (https://docs.python.org/3/library/stdtypes.html#string- 
methods) 获取 所 有 字符 串 函 数 的 细节 。 


2.4 练习 


本 章 介绍 了 Python 最 基本 的 元 素 : 数字 、 字 符 串 以 及 变量 。 我 们 试 着 在 交互 式 解释 器 里 完 
成 一 些 相关 的 练习 。 


(一 个 小 时 有 多 少 秒 ? 这 里 ， 请 把 交互 式 解释 器 当 作 计算 器 使 用 ， 将 每 分 钟 的 秒 数 (60) 
乘 以 每 小 时 的 分 钟 数 (66) 得 到 结果 。 

(2) 将 上 一 个 练习 得 到 的 结果 〈 每 小 时 的 秒 数 ) 赋值 给 名 为 seconds_per_hour 的 变量 。 

(G3) 一 天 有 多 少 秒 ? 用 你 的 seconds_per_hour 变量 进行 计算 。 

(4) 再 次 计算 每 天 的 秒 数 ， 但 这 一 次 将 结果 存储 在 名 为 seconds_per_day 的 变量 中 。 

(5) 用 seconds_per_day 除 以 seconds_per_hour ,使 用 浮 点 除法 (/)。 

(6) 用 seconds_per_day 除 以 seconds_per_hour， 使 用 整数 除法 (//)。 除 了 末尾 的 .09， 本 
练习 所 得 结果 是 否 与 前 一 个 练习 用 浮 点 数 除法 得 到 的 结果 一 致 ? 
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第 2 章 介绍 了 Python 最 底层 的 基本 数据 类 型 : 布尔 型 、 整 型 、 浮 点 型 以 及 字符 串 型 。 如 果 
把 这 些 数据 类 型 看 作 组 成 Python 的 原子 ， 那 么 本 章 将 要 提 到 的 数据 结构 就 像 分 子 一 样 。 在 
这 一 章 中 ， 我 们 会 把 之 前 所 学 的 基本 Python 类 型 以 更 为 复杂 的 方式 组 织 起 来 。 这 些 数据 结 
构 以 后 会 经 常用 和 到。 在 编程 中 ， 最 常见 的 工作 就 是 将 数据 进行 拆 分 或 合并 ， 将 其 加 工 为 特 
定 的 形式 ， 而 数据 结构 就 是 用 以 切 分 数据 的 钢 饮 以 及 合并 数据 的 粘 合 枪 。 


3.1 列表 和 元 组 


大 多 数 编程 语言 都 有 特定 的 数据 结构 来 存储 由 一 系列 元 素 组 成 的 序列 ， 这 些 元 素 以 它们 所 
处 的 位 置 为 索引 : 从 第 一 个 到 最 后 一 个 依次 编号 。 前 一 章 已 经 见 过 Python 字符 串 了 ， 它 本 
质 上 是 字符 组 成 的 序列 。 你 也 在 上 一 章 初 识 了 列表 结构 一 一 由 任意 类 型 元 素 组 成 的 序列 。 
本 章 将 更 深入 地 了 解 列表 。 


除 字符 串 外 ，Python 还 有 另外 两 种 序列 结构 : 元 组 和 列表 。 它 们 都 可 以 包含 零 个 或 多 个 元 
素 。 与 字符 串 不 同 的 是 ， 元 组 和 列表 并 不 要 求 所 含 元 素 的 种 类 相同 ， 每 个 元 素 都 可 以 是 任 
何 Python 类 型 的 对 象 。 得 益 于 此 ， 你 可 以 根据 自己 的 需求 和 喜好 创建 具有 任意 深度 及 复杂 
度 的 数据 结构 。 


为 什么 Python 需要 同时 设 定 列 表 和 元 组 这 两 种 序列 呢 ? 这 是 因为 元 组 是 不 可 变 的 ， 当 你 给 
元 组 赋值 时 ， 这 些 值 便 被 固定 在 了 元 组 里 ， 再 也 无 法 修改 。 然 而 ， 列 表 却 是 可 变 的 ， 这 意 
味 着 可 以 随意 地 插入 或 删除 其 中 的 元 素 。 在 后 面 的 内 容 中 ， 我 会 举 许 多 关于 这 两 种 结构 的 
例子 ， 但 重点 会 放 在 列表 上 。 
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说 一 点 题 外 话 ， 你 可 能 听 到 过 元 组 (tuple) 的 两 种 不 同 发 音 ， 究 竟 哪 一 种 是 
正确 的 ?是 不 是 会 担心 ， 如 果 猜 错 了 就 会 被 别人 认为 是 个 装 腔 作 势 假装 懂 
Python 的 人 ? 其 实 你 一 点 也 不 用 担心 。Python 之 父 吉 多 ， 范 罗 苏 姆 在 Twitter 
(https://twitter.com/gvanrossum/status/86144775731941376) 上 说 :“ 每 周 的 
一 三 五 我 会 把 tuple 念 作 too-pull， 而 二 四 六 我 喜欢 念 作 tub-pull。 至 于 礼拜 天 
嘛 ， 我 从 不 会 讨论 这 些 。 :)” 


3.2 Sr 


列表 非常 适合 利用 顺序 和 位 置 定位 某 一 元 素 ， 尤 其 是 当 元 素 的 顺序 或 内 容 经 常 发 生 改变 
A 你 可 以 直接 对 原始 列表 进行 修改 : 添加 新 元 素 、 删 除 
或 覆盖 已 有 元 素 。 在 列表 中 ， 具 有 相同 值 的 元 素 允 许 出 现 多 次 。 


3.2.1 使 用 [] 或 Litst() 创 建 列 表 
列表 可 以 由 零 个 或 多 个 元 素 组 成 ， 元 素 之 间 用 逗号 分 开 ， 整 个 列表 被 方 括号 所 包 于 ; 


>>> empty_list = [ ] 

>>> weekdays = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday'] 
>>> big_birds = ['emu', 'ostrich', 'cassowary'] 

>>> first_names = ['Graham', 'John', 'Terry', 'Terry', 'Michael'] 


也 可 以 使 用 tist() 函数 来 创建 一 个 空 列表 : 














>>> another_empty_list = list() 
>>> another_empty_list 


[] 





4.6 节 会 再 介绍 一 种 创建 列表 的 方式 ， 称 为 列表 推导 。 








上 面 的 例子 中 ， 只 有 weekdays 列表 充分 利用 了 列表 的 顺序 性 。first_names 则 展示 了 列表 
中 的 值 允 许 重 复 这 一 性 质 。 


如 果 你 仅仅 想 要 记录 一 些 互 不 相同 的 值 ， 而 不 在 乎 它们 之 间 的 顺序 关系 ， 集 
会 (set) 会 是 一 个 更 好 的 选择 。 在 上 面 的 例子 中 ，big_birds 就 更 适合 存储 
在 一 个 集合 中 。 本 章 的 后 半 部 分 会 了 解 到 一 些 关 于 集合 的 内 容 。 

















3.2.2 ”使 用 list() 将 其 他 数据 类 型 转换 成 列表 


Python 的 List() 函数 可 以 将 其 他 数据 类 型 转换 成 列表 类 型 。 下 面 的 例子 将 一 个 字符 串 转 
换 成 了 由 单个 字母 组 成 的 列表 : 
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>>> list('cat') 
[es 人 “ 


接 下 来 的 例子 将 一 个 元 组 〈 在 列表 之 后 介绍 ) 转换 成 了 列表 : 


>>> a_tuple = ('ready', 'fire', 'aim') 
>>> list(a_tuple) 
['ready', 'fire', 'aim'] 


正如 2.3.9 节 所 述 ， 使 用 spLit() 可 以 依据 分 隔 符 将 字符 串 切 割 成 由 若干 子 串 组 成 的 列表 : 


>>> birthday = '1/6/1952， 
>>> birthday.split('/') 
[es '6'，, "1952'] 


如 果 待 分 割 的 字符 串 中 包含 连续 的 分 隔 符 ， 那 么 在 返回 的 列表 中 会 出 现 空 串 元 素 : 


>>> splitme = 'a/b//c/d///e' 
>>> splitme.split('/') 
['a', 'b', Se 机 'd'，, DE ee 'e'] 


如 果 把 上 面 例子 中 的 分 隔 符 改 成 // 则 会 得 到 如 下 结果 : 


>>> splitme = 'a/b//c/d///e' 
>>> splitme.split('//') 
>>> 


['a/b', 'c/d', '/e'] 


3.2.3 ”使 用 [offset] 获 取 元 素 
和 字符 串 一 样 ， 通 过 偏 移 量 可 以 从 列表 中 提取 对 应 位 置 的 元 素 : 


>>> marxes = ['Groucho', 'Chico', 'Harpo'] 
>>> marxes[0] 

"Groucho' 

>>> marxes[1] 

"Chico' 

>>> marxes[2] 

"Harpo' 


同样 ， 负 偏 移 量 代表 从 尾部 开始 计数 : 


>>> marxes[-1] 
"Harpo' 

>>> marxes[-2] 
"Chico' 

>>> marxes[-3] 
"Groucho' 

>>> 




















指定 的 偏 移 量 对 于 待 访问 列表 必须 有 效 该 位 置 的 元 素 在 访问 前 已 正确 赋 
值 。 当 指定 的 偏 移 量 小 于 起 始 位 置 或 者 大 于 末尾 位 置 时 ， 会 产生 异常 ( 错 
误 )。 下 面 的 例子 展示 了 访问 第 6 个 ( 偏 移 量 为 5， 从 9 开始 计数 ) 或 者 倒数 
第 5 个 Marx 兄弟 时 产生 的 异常 : 














3 章 


WwW 
Oo 
证 


>>> marxes = ['Groucho', 'Chico', 'Harpo'] 
>>> marxes[5] 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
IndexError: list index out of range 


>>> marxes[-5] 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

IndexError: list index out of range 


3.2.4 包含 列表 的 列表 
列表 可 以 包含 各 种 类 型 的 元 素 ， 包 括 其 他 列表 ， 如 下 所 示 : 


>>> small_birds = ['hummingbird', 'finch'] 

>>> extinct_birds = ['dodo', 'passenger pigeon', 'Norwegian Blue'] 
>>> carol_birds = [3, 'French hens', 2, 'turtledoves'] 

>>> all_birds = [small_birds, extinct birds, 'macaw', carol_birds] 


all_birds 这 个 列表 的 结构 是 什么 样子 的 ? 
>>> all_birds 
[['hummingbird', 'finch'], ['dodo', 'passenger pigeon', 'Norwegian Blue'], 'macaw', 
[3, 'French hens', 2, 'turtledoves']] 
来 访问 第 一 个 元 素 看 看 : 
>>> all_birds[0] 
['hummingbird', 'finch'] 
第 一 个 元 素 还 是 一 个 列表 : 事实 上 ， 它 就 是 small_birds， 也 就 是 创建 all_birds 列表 时 设 
定 的 第 一 个 元 素 。 以 此 类 推 ， 不 难 猜测 第 二 个 元 素 是 什么 : 


>>> all_birds[1] 
['dodo', 'passenger pigeon', 'Norwegian Blue'] 











hl 


























和 预想 的 一 样 ， 这 是 之 前 指定 的 第 二 个 元 素 extinct_birds。 如 果 想 要 访问 extinct_birds 
的 第 一 个 元 素 ， 可 以 指定 双重 索引 从 all_birds 中 提取 : 


>>> aLL_birds[1][0] 

“dodo'， 
上 面 例子 中 的 [1] 指向 外 层 列 表 atL_birds 的 第 二 个 元 素 ， 而 [9] 则 指向 内 层 列表 的 第 一 
个 元 素 。 


3.2.5 ”使 用 [offset] 修 改元 素 
就 像 可 以 通过 偏 移 量 访问 某 元 素 一 样 ， 你 也 可 以 通过 赋值 对 它 进行 修改 ; 


>>> marxes = ['Groucho', 'Chico', 'Harpo'] 
>>> marxes[2] = 'Wanda' 

>>> Marxes 

['Groucho', 'Chico', 'Wanda'] 
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与 之 前 一 样 ， 列 表 的 偏 移 量 必须 是 合法 有 效 的 。 


通过 这 种 方式 无 法 修改 字符 串 中 的 指定 字符 ， 因 为 字符 串 是 不 可 变 的 。 列 表 是 可 变 的 ， 因 
此 你 可 以 改变 列表 中 的 元 素 个 数 ， 以 及 元 素 的 值 。 


3.2.6 ”指定 范围 并 使 用 切片 提取 元 素 
你 可 以 使 用 切片 提取 列表 的 一 个 子 序列 : 


>>> marxes = ['Groucho', 'Chico,' 'Harpo'] 
>>> marxes[0:2] 
['Groucho', 'Chico'] 


列表 的 切片 仍然 是 一 个 列表 。 
与 字符 串 一 样 ， 列 表 的 切片 也 可 以 设 定 除 1 以 外 的 步 长 。 下 面 的 例子 从 列表 的 开 
2 个 提取 一 个 元 素 : 


>>> marxes[::2] 
['Groucho', 'Harpo'] 


再 试 试 从 尾部 开始 提取 ， 步 长 仍 为 2: 


>>> marxes[::-2] 
['Harpo', 'Groucho'] 


利用 切片 还 可 以 巧妙 地 实现 列表 逆序 : 


>>> marxes[::-1] 
['Harpo', 'Chico', 'Groucho'] 


3.2.7 ”使 用 append() 添 加 元 素 至 尾部 


传统 的 向 列表 中 添加 元 素 的 方法 是 利用 append() 函数 将 元 素 一 个 个 添加 到 尾部 。 假 设 前 
下 的 例子 中 我 们 忘记 了 添加 Zeppo， 没 关系 ， 由 于 列表 是 可 变 的 ， 可 以 方便 地 把 它 添加 到 
尾部 : 

>>> marxes.append('Zeppo') 


>>> marxes 
['Groucho', 'Chico', 'Harpo', 'Zeppo'] 


3.2.8 使 用 extend() 或 += 合 并 列表 


使 用 extend() 可 以 将 一 个 列表 合并 到 另 一 个 列表 中 。 一 个 好 心 人 又 给 了 我 们 一 份 Marx 兄 
弟 的 名 字 列 表 others， 我 们 希望 能 把 它 加 到 已 有 的 marxes 列表 中 : 


>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Zeppo'] 

>>> others = ['Gummo', 'Karl'] 

>>> marxes.extend(others) 

>>> marxes 

['Groucho', 'Chico', 'Harpo', 'Zeppo', 'Gummo', 'Karl'] 
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也 可 以 使 用 +=: 


>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Zeppo'] 

>>> others = ['Gummo', 'Karl'] 

>>> marxes += others 

>>> Marxes 

['Groucho', 'Chico', 'Harpo', 'Zeppo', ‘Gummo', 'Karl'] 


如 果 错误 地 使 用 了 append()， 那 么 others 会 被 当成 一 个 单独 的 元 素 进行 添加 ， 而 不 是 将 其 
中 的 内 容 进行 合并 


>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Zeppo'] 

>>> others = ['Gummo', 'Karl'] 

>>> marxes.append(others) 

>>> marxes 

['Groucho', 'Chico', 'Harpo', 'Zeppo', ['Gummo', 'Karl']] 


这 个 例子 再 次 体现 了 列表 可 以 包含 不 同类 型 的 元 素 。 上 面 的 列表 包含 了 四 个 字符 串 元 素 以 
及 一 个 含有 两 个 字符 串 的 列表 元 素 。 


3.2.9 使 用 insert() 在 指定 位 置 插入 元 素 


append() 函数 只 能 将 新 元 素 插 入 到 列表 尾部 ， 而 使 用 insert() 可 以 将 元 素 插入 到 列表 的 任 
意 位 置 。 指 定 偏 移 量 为 8 可 以 插入 列表 头 部 。 如 果 指 定 的 偏 移 量 超过 了 尾部 ， 则 会 插入 到 
列表 最 后 ， 就 如 同 append() 一 样 ， 这 一 操作 不 会 产生 Python 异常 。 


>>> marxes.insert(3, 'Gummo') 

>>> marxes 

['Groucho', 'Chico', 'Harpo', 'Gummo', 'Zeppo'] 

>>> marxes.insert(10, 'Karl') 

>>> marxes 

['Groucho', 'Chico', 'Harpo', 'Gummo', 'Zeppo', 'Karl'] 


3.2.10 ”使 用 del 删 除 指定 位 置 的 元 素 
校对 员 刚 刚 通 知 说 Gummo 确实 是 Marx 兄弟 的 一 员 ， 但 Karl 并 不 是 ， 因 此 我 们 需要 撤销 
刚才 最 后 插入 的 元 素 : 


>>> del marxes[-1] 
>>> Marxes 
['Groucho', 'Chico', 'Harpo', 'Gummo', 'Zeppo'] 


当 列 表 中 一 个 元 素 被 删除 后 ， 位 于 它 后 面 的 元 素 会 自动 往 前 移动 填补 空 出 的 位 置 ， 且 列表 
长 度 减 1。 再 试 试 从 更 新 后 的 marxes 列表 中 删除 'Harpo ' : 


>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Gummo', 'Zeppo'] 
>>> marxes[2] 

"Harpo' 

>>> deL marxes[2] 

>>> Marxes 

['Groucho', 'Chico', 'Gummo', 'Zeppo'] 

>>> marxes[2] 

"Gummo 
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del 是 Python 语 揣 ， 而 不 是 列表 方法 一 一 无 法 通过 marxes[-2].del() 进行 调 
用 。del 就 像 是 赋值 语句 (=) 的 逆 过 程 ， 它 将 一 个 Python 对 象 与 它 的 名 字 
分 离 。 如 果 这 个 对 象 无 其 他 名 称 引 用 ， 则 其 占用 空间 也 被 会 清除 。 











3.2.11 使 用 remove() 删 除 具 有 指定 值 的 元 素 





如 果 不 确定 或 不 关心 元 素 在 列表 中 的 位 置 ， 可 以 使 用 remove() 根据 指定 的 值 删除 元 素 。 忆 


见 了 ，Gummo: 


>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Gummo', 'Zeppo'] 
>>> marxes.remove('Gummo') 

>>> marxes 

['Groucho', 'Chico', 'Harpo', 'Zeppo'] 


3.2.12 使 用 pop() 获 取 并 删除 指定 位 置 的 元 素 











如 








使 用 pop() 同样 可 以 获取 列表 中 指定 位 置 的 元 素 ， 但 在 获取 完成 后 ， 该 元 素 会 被 自动 删除 。 
如 果 你 为 pop() 指定 了 偏 移 量 ， 它 会 返回 偏 移 量 对 应 位 置 的 元 素 ， 如 果 不 指定 ， 则 默认 使 











用 -1。 因 此 ，pop(9) 将 返回 列表 的 头 元 素 ， 而 pop() 或 pop(-1) 则 会 返回 列表 的 尾 元 素 : 


>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Zeppo'] 
>>> marxes.pop() 

"Zeppo' 

>>> marxes 

['Groucho', 'Chico', 'Harpo'] 

>>> marxes.pop(1) 

"Chico' 

>>> marxes 

['Groucho', 'Harpo'] 




















又 到 了 计算 机 术语 时 间 了 ! 别 担心 ， 这 些 不 在 期 末 考 试 范围 内 。 如 果 使 用 
append() 来 添加 元 素 到 尾部 ， 并 通过 pop() 从 尾部 删除 元 素 ， 实 际 上 ， 实 
现 了 一 个 被 称 为 LIFO (后 进 先 出 ) 队列 的 数据 结构 。 我 们 更 习惯 称 之 为 栈 
(stack) 。 如 果 使 用 pop(9) 来 删除 元 素 则 创建 了 一 个 FIFO (先进 先 出 ) 队列 。 
这 两 种 数据 结构 非常 有 用 ， 你 可 以 不 断 接收 数据 ， 并 根据 需求 对 最 先 到 达 的 
数据 (FIFO) 或 最 后 到 达 的 数据 (LIFO) 进行 处 理 。 


3.2.13 ”使 用 index() 查 询 具 有 特定 值 的 元 素 位 置 
如 果 想 知道 等 于 某 一 个 值 的 元 素 位 于 列表 的 什么 位 置 ， 可 以 使 用 index() 函数 进行 查询 : 
>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Zeppo'] 


>>> marxes.index('Chico') 
1 


3.2.14 ”使 用 in 判 断 值 是 否 存 在 
判断 一 个 值 是 否 存在 于 给 定 的 列表 中 有 许多 方式 ， 其 中 最 具有 Python 风格 的 是 使 用 in: 
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>>> marxes = ['Groucho', 'Chico', 'Harpo', 'Zeppo'] 
>>> 'Groucho' in marxes 

True 

>>> 'Bob' in marxes 

False 


同一 个 值 可 能 出 现在 列表 的 多 个 位 置 ， 但 只 要 至 少 出 现 一 次 ，in 就 会 返回 True: 





'female', 'deer'] 


>>> words = ['a', 'deer', 'a 
>>> 'deer' in words 
True 














如 果 经 常 需要 判断 一 个 值 是 否 存在 于 一 个 列表 中 ， 但 并 不 关心 列表 中 元 素 之 
间 的 顺序 ， 那 么 使 用 Python 集合 进行 存储 和 查找 会 是 更 好 的 选择 。 本 章 的 稍 
后 部 分 会 介绍 一 点 关于 集合 的 内 容 。 


3 








3.2.15 ”使 用 count() 记 录 特 定 值 出 现 的 次 数 
使 用 count() 可 以 记录 某 一 个 特定 值 在 列表 中 出 现 的 次 数 


>>> marxes = ['Groucho', 'Chico', 'Harpo'] 
>>> marxes.count('Harpo') 

1 

>>> marxes.count('Bob') 

0 


>>> snl_skit = ['cheeseburger', 'cheeseburger', 'cheeseburger'] 
>>> snl_skit.count('cheeseburger') 
3 


3.2.16 使 用 join() 转 换 为 字符 串 
2.3.10 节 详 细 地 讨论 了 join() 的 使 用 方法 ， 这 里 又 提供 了 一 种 新 的 使 用 方式 ， 

>>> marxes = ['Groucho', 'Chico', 'Harpo'] 

>>> ',，'.join(marxes) 

'Groucho, Chico, Harpo' 
等 等 ， 你 可 能 会 觉得 join() 的 使 用 顺序 看 起 来 有 点 别扭 。 这 是 因为 join() 实际 上 是 一 个 
字符 串 方法 ， 而 不 是 列表 方法 。 不 能 通过 marxes.join(',') 进行 调用 ， 尽 管 这 可 能 看 起 来 
更 直观 。join() 国 数 的 参数 是 字符 串 或 者 其 他 可 迭代 的 包含 字符 串 的 序列 《例如 上 面 例 
子 中 的 字符 串 列表 ) ， 它 的 输出 是 一 个 字符 串 。 如 果 join() 是 列表 方法 ， 将 无 法 对 其 他 可 
迭代 的 对 象 〈 例 如 元 组 、 字 符 串 ) 使 用 。 如 果 坚 持 想 让 它 能 接受 任何 迭代 类 型 ， 你 必须 亲 
自 为 每 一 种 类 型 的 序列 编写 合并 代码 ， 这 太 过 费力 。 试 着 这 样 来 记忆 join() 的 调用 顺序 : 
join() 是 split() 的 北 过 程 ， 如 下 所 示 : 


>>> friends = ['Harry', 'Hermione', "Ron '] 



































>>> Separator = ”yx 
>>> joined = separator.join(friends) 
>>> joined 


"Harry * Hermione * Ron' 
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>>> Separated = joined.split(separator) 
>>> Separated 

['Harry', 'Hermione', "Ron '] 

>>> separated == friends 

True 


3.2.17 ”使 用 sort() 重 新 排列 元 素 


在 实际 应 用 中 ， 经 常 需要 将 列表 中 的 元 素 按 值 排序 ， 而 不 是 按照 偏 移 量 排序 。Python 为 此 
提供 了 两 个 函数 : 


。 列表 方法 sort() 会 对 原 列表 进行 排序 ， 改 变 原 列表 内 容 ， 
。 通用 函数 sorted() 则 会 返回 排 好 序 的 列表 副本 ， 原 列表 内 容 不 变 。 


如 果 列 表 中 的 元 素 都 是 数字 ， 它 们 会 默认 地 被 排列 成 从 小 到 大 的 升序 。 如 果 元 素 都 是 字符 
串 ， 则 会 按照 字母 表 顺 序 排列 : 

>>> marxes = ['Groucho', 'Chico', 'Harpo'] 

>>> sorted marxes = sorted(marxes) 


>>> Sorted_marxes 
['Chico', 'Groucho', 'Harpo'] 


sorted_marxes 是 一 个 副本 ， 它 的 创建 并 不 会 改变 原始 列表 的 内 容 : 


>>> marxes 
['Groucho', 'Chico', 'Harpo'] 


但 对 marxes 列表 调用 列表 函数 sort() 则 会 改变 它 的 内 容 : 

>>> marxes.sort() 

>>> Marxes 

['Chico', 'Groucho', 'Harpo'] 
当 列 表 中 的 所 有 元 素 都 是 同一 种 类 型 时 (例如 marxes 中 都 是 字符 串 )，sort() 会 正常 工 
作 。 有 些 时 候 其 如 整 型 和 浮 点 型 一 一 只 要 它们 之 间 能 够 自动 地 互相 
转换 : 

>>> numbers = [2, 1, 4.0, 3] 

>>> numbers.sort() 

>>> numbers 

[1, 2, 3, 4.0] 


默认 的 排序 是 升序 的 ， 通 过 添加 参数 reverse=True 可 以 改变 为 降序 排列 : 
>>> numbers = [2, 1, 4.0, 3] 
>>> numbers.sort(reverse=True) 


>>> numbers 
[4.0, 3, 2, 1] 


3.2.18 ”使 用 len() 获 取 长 度 


Len() 可 以 返回 列表 长 度 : 



































>>> marxes = ['Groucho', 'Chico', 'Harpo'] 
>>> len(marxes) 
3 


3.2.19 ”使 用 = 赋值 ， 使 用 copy() 复 制 


如 有 果 将 一 个 列表 赋值 给 了 多 个 变量 ， 改 变 其 中 的 任何 一 处 会 造成 其 他 变量 对 应 的 值 也 被 修 
改 ， 如 下 所 示 : 


>>> a = [1, 2, 3] 

>>> a 

[1, 2 

>>> b = 
b 





>>> 

[1, 2, 3] 

>>> a[0] = 'surprise' 
>>> 9 

['surprise', 2, 3] 


现在 ，b 的 值 是 什么 ” 它 会 保持 [1，2，3]， 还 是 改变 为 ['surprise' ，2，3] ? 试 一 试 : 
>>> b 
['surprise', 2, 3] 
还 记得 第 2 章 中 贴标签 的 比喻 吗 ? b 与 a 实际 上 指向 的 是 同一 个 对 象 ， 因 此 ， 无 论 我 们 是 
通过 a 还 是 通过 b 来 修改 列表 的 内 容 ， 其 结果 都 会 作用 于 双方 : 


>>> b 

['surprise', 2, 3] 

>>> b[0] = 'I hate surprises' 
>>> b 

['I hate surprises', 2, 3] 
>>> 9 


['I hate surprises', 2, 3] 
通过 下 面 任 意 一 种 方法 ， 都 可 以 将 一 个 列表 的 值 复制 到 另 一 个 新 的 列表 中 : 
。 列表 copy() 函数 


。 list() 转换 函数 
。 列表 分 片 [:] 


测试 初始 时 我 们 的 列表 叫 作 a， 然 后 利用 copy() 函数 创建 b， 利 用 List() 函数 创建 c， 并 
使 用 列表 分 片 创建 d: 




















>>> a = [1, 2, 3] 
>>> b = a.copy() 
>>> C = list(a) 
>>> d = a[:] 





再 次 注意 ， 在 这 个 例子 中 ，b、c、d 都 是 a 的 复制 ; ee 的 新 对 象 ， 与 原始 
的 a 所 指向 的 列表 对 象 [1，2，3] 没有 任何 关联 。 改 变 a 不 影响 b、c 和 d 的 复制 : 


>>> a[0] = 'integer lists are boring’ 
>>> 9 
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[ integer lists are boring', 2, 3] 
>>> b 

[1，2，3] 

>>> C 

[1，2，3] 

>>> d 


[1，2，3] 


3.3 元 组 


与 列表 类 似 ， 元 组 也 是 由 任意 类 型 元 素 组 成 的 序列 。 与 列表 不 同 的 是 ， 元 组 是 不 可 变 的 ， 
这 意味 着 一 旦 元 组 被 定义 ， 将 无 法 再 进行 增加 、 删 除 或 修改 元 素 等 操作 。 因 此 ， 元 组 就 像 
是 一 个 常量 列表 。 


3.3.1 使 用 () 创 建 元 组 
下 面 的 例子 展示 了 创建 元 组 的 过 程 ， 它 的 语法 与 我 们 直观 上 预想 的 有 一 些 差别 。 
可 以 用 () 创建 一 个 空 元 组 : 


>>> empty_tuple = () 
>>> empty_tuple 
() 


创建 包含 一 个 或 多 个 元 素 的 元 组 时 ， 每 一 个 元 素 后 面 都 需要 跟着 一 个 过 号 ， 即 使 只 包含 一 
个 元 素 也 不 能 省 略 : 
>>> one_marx = 'Groucho', 


>>> one_marx 
('Groucho',) 


如 果 创 建 的 元 组 所 包含 的 元 素数 量 超过 1， 最 后 一 个 元 素 后 面 的 逗号 可 以 省 略 : 


>>> marx_tuple = 'Groucho', 'Chico', 'Harpo' 

>>> marx_tuple 

('Groucho', 'Chico', 'Harpo') 
Python 的 交互 式 解释 器 输出 元 组 时 会 自动 添加 一 对 圆 括号 。 你 并 不 需要 这 么 做 一 一 定义 元 
组 真正 靠 的 是 每 个 元 素 的 后 组 逗号 但 如 果 你 习惯 添加 一 对 括号 也 无 可 厚 非 。 可 以 用 括 
号 将 所 有 元 素 包 于 起 来 ， 这 会 使 得 程序 更 加 清晰 : 

>>> marx_tuple = ('Groucho', 'Chico', 'Harpo') 

>>> marx_tuple 

('Groucho', 'Chico', 'Harpo') 
可 以 一 口气 将 元 组 赋值 给 多 个 变量 : 


>>> marx_tuple = ('Groucho', 'Chico', 'Harpo') 
>>> a, b, c = marx_tuple 

>>> ad 

'"Groucho 

>>> b 
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"Chico' 
bE 
"Harpo' 


有 时 这 个 过 程 被 称 为 元 组 解 包 。 
可 以 利用 元 组 在 一 条 语句 中 对 多 个 变量 的 值 进行 交换 ， 而 不 需要 借助 临时 变量 : 


>>> password = 'swordfish’ 

>>> icecream = 'tuttifrutti' 

>>> password, icecream = icecream, password 
>>> password 

'tuttifrutti' 

>>> icecream 

'swordfish' 

>>> 


tuple() 函数 可 以 用 其 他 类 型 的 数据 来 创建 元 组 : 


>>> marx_list = ['Groucho', 'Chico', 'Harpo'] 
>>> tuple(marx_list) 
('Groucho', 'Chico', 'Harpo') 


3.3.2 元 组 与 列表 

在 许多 地 方 都 可 以 用 元 组 代替 列表 ， 但 元 组 的 方法 函数 与 列表 相 比 要 少 一 些 一 一 元 组 没有 
append()、insert()， 等 等 一 一 因为 一 旦 创建 元 组 便 无 法 修改 。 既 然 列表 更 加 灵活 ， 那 为 
什么 不 在 所 有 地 方 都 使 用 列表 呢 ? 原因 如 下 所 示 : 

。 元 组 占用 的 空间 较 小 

。 你 不 会 意外 修改 元 组 的 值 

。 可 以 将 元 组 用 作 字 典 的 键 ( 详 见 3.4 节 ) 

。 命名 元 组 〈 详 见 第 6 章 “ 命 名 元 组 ”小 节 ) 可 以 作为 对 象 的 替代 

。 国 数 的 参数 是 以 元 组 形式 传递 的 〈 详 见 4.7 节 ) 


这 一 节 不 会 再 介绍 更 多 关于 元 组 的 细节 了 。 实 际 编程 中 ， 更 多 场合 用 到 的 是 列表 和 字典 ， 
而 接 下 来 要 介绍 的 就 是 字典 结构 。 


3.4 字典 


字典 (dictionary) 与 列表 类 似 ， 但 其 中 元 素 的 顺序 无 关 紧 要 ， 因 为 它们 不 是 通过 像 0 或 1 
的 偏 移 量 访问 的 。 取 而 代 之 ， 每 个 元 素 拥有 与 之 对 应 的 互 不 相同 的 键 (key)， 需 要 通过 键 
来 访问 元 素 。 键 通常 是 字符 串 ， 但 它 还 可 以 是 Python 中 其 他 任意 的 不 可 变 类 型 : 布尔 型 、 
整 型 、 浮 点 型 、 元 组 、 字 符 串 ， 以 及 其 他 一 些 在 后 面 的 内 容 中 会 见 到 的 类 型 。 字 典 是 可 变 
的 ， 因 此 你 可 以 增加 、 删 除 或 修改 其 中 的 键 值 对 。 


如 果 使 用 过 只 支持 数组 或 列表 的 语言 ， 那 么 你 很 快 就 会 爱 上 Python 里 的 字典 类 型 。 
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在 其 他 语言 中 ， 字 典 可 能 会 被 称 作 关系 型 数组 、 哈 希 表 或 哈 希 图 。 在 
Python 中 ， 字 典 (dictionary) 还 经 常会 被 简写 成 dict。 


3.4.1 ”使 用 人 0 创建 字典 


用 大 括号 ({}) 将 一 系列 以 逗号 隔 开 的 键 值 对 (key:value) 包 于 起 来 即 可 进行 字典 的 创 
建 。 最 简单 的 字典 是 空 字典 ， 它 不 包含 任何 键 值 对 : 


>>> empty_dict = {} 
>>> empty_dict 


QQ 
引用 Ambrose Bierce 的 《魔鬼 词典 》(The Devil3 Dictionary) 来 创建 一 个 字典 : 


>>> bierce = { 
"day": "A period of twenty-four hours, mostly misspent", 
"positive": "Mistaken at the top of one's voice", 
"misfortune": "The kind of fortune that never misses", 


} 











在 交互 式 解释 器 中 输入 字典 名 会 打印 出 它 所 包含 的 所 有 键 值 对 : 


>>> bierce 

{'misfortune': 'The kind of fortune that never misses', 
'positive': "Mistaken at the top of one's voice", 

'day': 'A period of twenty-four hours, mostly misspent'} 




















Python 允许 在 列表 、 元 组 或 字典 的 最 后 一 个 元 素 后 面 添 加 逗号 ， 这 不 会 产生 
任何 问题 。 此 外 ， 在 括号 之 间 输 入 键 值 对 来 创建 字典 时 并 不 强制 缩 进 ， 我 这 
么 做 只 是 为 了 增加 代码 的 可 读 性 。 











3.4.2 ”使 用 dict() 转 换 为 字典 


可 以 用 dict() 将 包含 双 值 子 序列 的 序列 转换 成 字典 。( 你 可 能 会 经 常 遇 到 这 种 子 序 列 ， 例 
如 “Strontium，90，Carbon，14” 或 者 “Vikings，20，Packers，7” ， 等 等 。) 每 个 子 序列 
的 第 一 个 元 素 作 为 键 ， 第 二 个 元 素 作 为 值 。 
首先 ， 这 里 有 一 个 使 用 Lol (a list of two-item list) 创建 字典 的 小 例子 : 

>>> lol = [ ['a'’, 'b'], ['c', 'd'], ['e'’, 'f'] ] 

>>> dict(lol) 

{cr dd', a'r: 'b', ‘e': 'f'} 














记 住 ， 字 典 中 元 素 的 顺序 是 无 关 紧 要 的 ， 实 际 存 储 顺序 可 能 取决 于 你 添加 元 
素 的 顺序 。 

















可 以 对 任何 包含 双 值 子 序列 的 序列 使 用 dict()， 下 面 是 其 他 例子 。 

包含 双 值 元 组 的 列表 : 
>>> lot = [ ('a', 'b'), ('c', 'd'), ('e', 'f') ] 
>>> ee 
于 

包含 双 值 列表 的 元 组 : 
有 
>>> dict(tol) 

{'c': 'd', 'a': 'b', 'e': 'f'} 

双 字 符 的 字符 串 组 成 的 列表 : 
>>> los = [ 'ab', 'cd', 'ef' ] 
>>> dict(Los) 
下 

双 字 符 的 字符 串 组 成 的 元 组 : 
>>> tos = ( 'ab', 'cd', 'ef' ) 
>>> dict(tos) 


{'c': 'd', 'a': 'b', '@e': 'f'} 


4.5.4 节 会 教 你 如 何 使 用 zip() 函数 ， 利 用 它 能 非常 简单 地 创建 上 面 这 种 双 元 素 序 列 。 


3.4.3 ”使 用 [key] 添 加 或 修改 元 素 


向 字典 中 添加 元 素 非 常 简 单 ， 只 需 指定 该 元 素 的 键 并 赋予 相应 的 值 即 可 。 如 果 该 元 素 的 键 
已 经 存在 于 字典 中 ， 那 么 该 键 对 应 的 旧 值 会 被 新 值 取 代 。 如 果 该 元 素 的 键 并 未 在 字典 中 出 
现 ， 则 会 被 加 入 字典 。 与 列表 不 同 ， 你 不 需要 担心 赋值 过 程 中 Python 会 抛 出 越界 异常 。 

我 们 来 建立 一 个 包含 大 多 数 Monty Python 成 员 名 字 的 字典 ， 用 他 们 的 姓 当 作 键 ， 名 当 作 值 : 


>>> pythons = { 









































'Chapman': "Graham ' ， 
'Cleese': 'John', 
'Idle': 'Eric', 
'Jones': 'Terry', 
'Palin': 'Michael', 
A } 
>>> pythons 
{'Cleese': 'John', 'Jones': 'Terry', 'Palin': 'Michael', 


"Chapman': 'Graham', 'Idle': 'Eric'} 


等 等 ， 我 们 好 像 落 下 了 一 个 人 : 生 于 美国 的 Terry Gilliam。 下 面 是 一 个 糟糕 的 程序 员 为 了 
将 Gilliam 添加 进 字典 而 编写 的 代码 ， 他 粗心 地 将 Gilliam 的 名 字 打 错 了 : 


>>> pythons['Gilliam'] = 'Gerry' 

>>> pythons 

{'Cleese': 'John', 'Gilliam': 'Gerry', 'Palin': 'Michael', 
'Chapman': 'Graham', 'Idle': 'Eric', 'Jones': 'Terry'} 
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和 是 另 一 位 颇具 Python 风格 的 程序 员 的 修补 代码 : 


>>> pythons['Gilliam'] = 'Terry’ 

>>> pythons 

{'Cleese': 'John', 'Gilliam': 'Terry', 'Palin': 'Michael', 
'Chapman': 'Graham', 'Idle': 'Eric', 'Jones': 'Terry'} 


通过 使 用 相同 的 键 ('Gitliam') 将 原本 的 对 应 值 'Gerry' 修改 为 了 'Terry'。 


记 住 ， 字典 的 键 必 须 保 证 互 不 相同 。 这 就 是 为 什么 在 这 里 使 用 姓 作 为 键 ， 而 不 是 使 用 
名 一 一 Monty Python 的 成 员 中 有 两 个 都 叫 Terry ! 如 果 创 建 字典 时 同一 个 键 出 现 了 两 次 ， 
那么 后 面 出 现 的 值 会 取代 之 前 的 值 : 


>>> Some_pythons = { 
"Graham' : 'Chapman', 
'John': 'Cleese', 
'Eric': 'Idle', 
'Terry': 'Gilliam', 
































'Michael': 'Palin', 
'Terry': 'Jones', 
} 
>>> some_pythons 
{'Terry': 'Jones', 'Eric': 'Idle', 'Graham': 'Chapman', 


'John': 'Cleese', 'Michael': 'Palin'} 


上 面 例子 中 ， 我 们 首先 将 'Gittliam' 赋值 给 了 键 'Terry'， 然 后 又 用 'Jones' 把 它 取代 掉 了 。 


3.4.4 ”使 用 update() 合 并 字典 
使 用 update() 可 以 将 一 个 字典 的 键 值 对 复制 到 另 一 个 字典 中 去 。 
首先 定义 一 个 包含 所 有 成 员 的 字典 pythons 


>>> pythons = { 



































'Chapman': 'Graham', 
'Cleese': 'John', 
‘Gilliam': 'Terry', 
'Idle': 'Eric', 
'Jones': 'Terry', 
'Palin': 'Michael', 


人 } 
>>> pythons 
{'Cleese': 'John', 'Gilliam': 'Terry', 'Palin': 'Michael', 
'Chapman': 'Graham', 'Idle': 'Eric', 'Jones': 'Terry'} 


接着 定义 一 个 包含 其 他 喜剧 演员 的 字典 ， 命 名 为 others: 
>>> others = { 'Marx': 'Groucho', 'Howard': 'Moe' } 


现在 ， 出 现 了 另 一 个 糟糕 的 程序 员 ， 它 认为 others 应 该 被 昭和 人 Monty Python 成 员 中 : 


>>> pythons.update(others) 

>>> pythons 

{'Cleese': 'John', 'Howard': 'Moe', 'Gilliam': 'Terry', 
'Palin': 'Michael', 'Marx': 'Groucho', 'Chapman': 'Graham', 
'Idle': 'Eric', 'Jones': 'Terry'} 

















如 果 待 添加 的 字典 与 待 扩 充 的 字典 包含 同样 的 键 会 怎样 ?是 的 ， 新 归 入 字典 的 值 会 取代 原 
有 的 值 : 

>>> first = {'a': 1, 'b': 2} 

>>> second = {'b': 'platypus'} 

>>> first.update(second) 


>>> first 
{'b': 'platypus', 


3.4.5 ”使 用 del 删 除 具有 指定 键 的 元 素 

技术 上 来 说 ， 上 面 那 个 粮 糕 的 程序 员 写 的 代码 倒是 正确 的 。 但 是 他 不 应 该 这 么 做 lothers 
里 的 成 员 虽然 也 很 搞笑 很 出 名 ， 但 他 们 终归 不 是 Monty Python 的 成 员 。 把 最 后 添加 的 两 个 
成 员 清除 出 去 : 


>>> del pythons['Marx'] 
>>> pythons 











1 


a': 1} 


{'Cleese': 'John', 'Howard': 'Moe', 'Gilliam': 'Terry', 
'Palin': 'Michael', 'Chapman': 'Graham', 'Idle': 'Eric', 
'Jones': 'Terry'} 


>>> del pythons['Howard'] 

>>> pythons 

{'Cleese': 'John', 'Gilliam': 'Terry', 'Palin': 'Michael', 
'Chapman': 'Graham', 'Idle': 'Eric', 'Jones': 'Terry'} 


3.4.6 ”使 用 clear() 删 除 所 有 元 素 
使 用 clear()， 或 者 给 字典 变量 重新 赋值 一 个 空 字典 ({}) 可 以 将 字典 中 所 有 元 素 删 除 : 


>>> pythons.clear() 
>>> pythons 











>>> pythons = {} 
>>> pythons 


3.4.7 ”使 用 in 判断 是 否 存 在 
如 果 你 希望 判断 某 一 个 键 是 否 存在 于 一 个 字典 中 ， 可 以 使 用 in。 我 们 来 重新 定义 一 下 
pythons 字典 ， 这 一 次 可 以 省 略 一 两 个 人 名 ; 


>>> pythons = { "Chapman': 'Graham', 'Cleese': 'John', 
"Jones': 'Terry', 'Palin': 'Michael'} 


测试 一 下 看 看 谁 在 里 面 : 


>>> 'Chapman' in pythons 
True 

>>> 'Palin' in pythons 
True 


这 一 次 记得 把 Terry Gilliam 添加 到 成 员 字 典 里 了 吗 ? 
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>>> 'Gilliam' in pythons 
False 


糟糕 ， 好 像 又 忘记 了 。 


3.4.8 使 用 [key] 获 取 元 素 
这 是 对 字典 最 常 进行 的 操作 ， 只 需 指 定 字典 名 和 键 即 可 获得 对 应 的 值 


>>> pythons['Cleese'] 
"John 


如 果 字 典 中 不 包含 指定 的 键 ， 会 产生 一 个 异常 : 


>>> pythons['Marx'] 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

KeyError: 'Marx' 


有 两 种 方法 可 以 避免 这 种 情况 的 发 生 。 第 一 种 是 在 访问 前 通过 in 测试 键 是 否 存在 ， 就 像 
在 上 一 小 节 看 到 的 一 样 : 


>>> 'Marx' in pythons 
False 


男 一 种 方法 是 使 用 字典 函数 get()。 你 需要 指定 字典 名 ， 键 以 及 一 个 可 选 值 。 如 果 键 存在 ， 
会 得 到 与 之 对 应 的 值 : 


>>> pythons.get('Cleese') 
"John' 


反之 ， 若 键 不 存在 ， 如 果 你 指定 了 可 选 值 ， 那 么 get() 函数 将 返回 这 个 可 选 值 : 


>>> pythons.get('Marx', 'Not a Python ' ) 
'Not a Python 


否则 ， 会 得 到 None (在 交互 式 解 释 器 中 什么 也 不 会 显示 ) : 


>>> pythons.get('Marx') 
>>> 


3.4.9 使 用 keys() 获 取 所 有 键 
使 用 keys() 可 以 获得 字典 中 的 所 有 键 。 在 接 下 来 的 几 个 例子 中 ， 我 们 将 换 一 个 示例 ， 


>>> signals = {' green': 'go', 'yellow': 'go faster', 'red': 'smile for the camera'} 
>>> signals.keys() 
dict_keys(['green', 'red', 'yellow']) 














在 Python 2 里 ，keys() 会 返回 一 个 列表 ， 而 在 Python 3 中 则 会 返回 dict_ 
keys()， 它 是 键 的 迭代 形式 。 这 种 返回 形式 对 于 大 型 的 字典 非常 有 用 ， 因 为 
它 不 需要 时 间 和 空间 来 创建 返回 的 列表 。 有 时 你 需要 的 可 能 就 是 一 个 完整 的 
列表 ， 但 在 Python 3 中 ， 你 只 能 自己 调用 List() 将 dict_keys 转换 为 列表 
类 型 。 
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>>> list( signals.keys() ) 
['green', 'red', 'yellow'] 












































在 Python 3 里， 你 同样 需要 手动 使 用 List() 将 values() 和 items() 的 返回 
值 转换 为 普通 的 Python 列表 。 之 后 的 例子 中 会 用 到 这 些 。 
3.4.10 使 用 vaLues() 获 取 所 有 值 
使 用 values() 可 以 获取 字典 中 的 所 有 值 : 
>>> list( signals.values() ) 
['go', 'smile for the camera', 'go faster '] 
3.4.11 使 用 items() 获 取 所 有 键 值 对 
使 用 items() 函数 可 以 获取 字典 中 所 有 的 键 值 对 : 
>>> list( signals.items() ) 
[('green', 'go'), ('red', 'smile for the camera'), ('yellow', 'go faster ')] 
每 一 个 键 值 对 以 元 组 的 形式 返回 ， 例 如 ('green','go')。 
3.4.12 ”使 用 = 赋值 ， 使 用 copy() 复 制 
与 列表 一 样 ， 对 字典 内 容 进行 的 修改 会 反映 到 所 有 与 之 相关 联 的 变量 名 上 : 
>>> signals = {'green': 'go', 'yellow': 'go faster', 'red': 'smile for the camera'} 
>>> save_signals = signals 
>>> signals['blue'] = 'confuse everyone' 
>>> save_signals 
{'blue': 'confuse everyone', 'green': 'go', 
'red': 'smile for the camera', 'yellow': 'go faster'} 
若 想 避免 这 种 情况 ， 可 以 使 用 copy() 将 字典 复制 到 一 个 新 的 字典 中 : 
>>> signals = {'green': 'go', 'yellow': 'go faster', 'red': 'smile for the camera'} 
>>> original_signals = signals.copy() 
>>> signals['blue'] = 'confuse everyone' 
>>> signals 
{'blue': 'confuse everyone', 'green': 'go', 
"red': 'smile for the camera', 'yellow': 'go faster'} 
>>> original_signals 
{'green': 'go', 'red': 'smile for the camera', 'yellow': 'go faster'} 


3.5 集合 


集合 就 像 舍弃 了 值 ， 仅 剩 下 键 的 字典 一 样 。 键 与 键 之 间 也 不 允许 重复 。 如 果 你 仅仅 想 知道 
某 一 个 元 素 是 否 存在 而 不 关心 其 他 的 ， 使 用 集合 是 个 非常 好 的 选择 。 如 果 需 要 为 键 附加 其 
他 信息 的 话 ， 建 议 使 用 字典 。 


很 久 以 前 ， 当 你 还 在 小 学 时 ， 可 能 就 学 到 过 一 些 关 于 集合 论 的 知识 。 当 然 ， 如 果 你 的 学 校 恰 

















n> 


Python 容器 ， 列表 、 元 组 、 字 典 与 集合 | 53 





好 跳 过 了 这 一 部 分 内 容 (或 者 实际 上 教 了 ， 但 你 当时 正好 盯 着 窗 发 呆 ， ee 
样 开小差 )， 可 以 仔细 看 看 图 3-1， 它 展示 了 我 们 对 于 集合 进行 也 








女 名 














图 3-1: 集合 的 常见 操作 


假如 你 将 两 个 包含 相同 键 的 集合 进行 并 操作 ， 由 于 集合 中 的 元 素 只 能 出 现 一 次 ， 因 此 得 到 
的 并 集 将 包含 两 个 集合 所 有 的 键 ， 但 每 个 键 仅 出 现 一 次 。 空 或 空 集 指 的 是 包含 零 个 元 素 的 
集合 。 在 图 3-1 中 ， 名 字 以 X 开 头 的 女性 组 成 的 集合 就 是 一 个 空 集 。 


3.5.1 使 用 set() 创 建 集合 


你 可 以 使 用 set() 图 数 创建 一 个 集合 ， 或 者 用 大 括号 将 一 系列 以 逗号 隔 开 的 值 包 衷 起 来 ， 
如 下 所 示 : 
>>> empty_set = set() 
>>> empty_set 
set() 
>>> even_numbers = {0, 2, 4, 6, 8} 
>>> even_numbers 
{0, 8, 2, 4, 6} 
>>> odd_numbers = {1, 3, 5, 7, 9} 
>>> odd_numbers 
{9, 3, 1, 5, 7} 


与 字典 的 键 一 样 ， 集 合 是 无 序 的 。 


由 于 [] 能 创建 一 个 空 列 表 ， 你 可 能 期 望 {} 也 能 创建 空 集 。 但 事实 上 ，f{] 会 
创建 一 个 空 字典 ， 这 也 是 为 什么 交互 式 解释 器 把 空 集 输出 为 set() 而 不 是 
{}。 为 何如 此 ?没有 什么 特殊 原因 ， 仅 仅 是 因为 字典 出 现 的 比较 早 并 抢先 占 
据 了 花 括号 。 


3.5.2 ”使 用 set() 将 其 他 类 型 转换 为 集合 


你 可 以 利用 已 有 列表 、 字 符 串 、 元 组 或 字典 的 内 容 来 创建 集合 ， 其 中 重复 的 值 会 被 丢弃 。 
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首先 来 试 着 转换 一 个 包含 重复 字母 的 字符 串 : 


>>> set( 'letters' ) 
Es 'e', vt 由 's'} 


注意 ， 上 面 得 到 的 集合 中 仅 含 有 一 个 'e' 和 一 个 't'， 尽 管 字符 串 "Letters' 里 各 自 包含 


两 个 。 
再 试 试用 列表 建立 集合 


>>> set( ['Dasher', 'Dancer', 'Prancer', 'Mason-Dixon'] ) 
{'Dancer', 'Dasher', 'Prancer', 'Mason-Dixon'} 


再 试 试 元 组 : 


>>> set( ('Ummagumma', 'Echoes', 'Atom Heart Mother') ) 
{'Ummagumma', 'Atom Heart Mother', 'Echoes'} 


当 字典 作为 参数 传 入 set() 函数 时 ， 只 有 键 会 被 使 用 : 


>>> set( {'apple': 'red', 'orange': 'orange', 'cherry': 'red'} ) 
{'apple', 'cherry', 'orange'} 


3.5.3 ”使 用 in 测试 值 是 否 存在 








这 是 集合 里 最 常用 的 功能 。 我 们 来 建立 一 个 叫 drinks 的 字典 。 每 个 键 都 是 一 种 混合 














名 字 ， 与 之 对 应 的 值 是 配料 组 成 的 集合 


>>> drinks = { 
'martini': {'vodka', 'vermouth'}, 
'black russian': {'vodka', 'kahlua'}, 
'white russian': {'cream', 'kahlua', 'vodka'}, 
"manhattan': {'rye', 'vermouth', 'bitters'}, 
'screwdriver': {'orange juice', 'vodka'} 


} 


尽管 都 由 花 括号 ({ 和 }) 包 夺 ,集合 仅仅 是 一 系列 值 组 成 的 序列 ， 而 字典 
键 值 对 组 成 的 序列 。 





饮料 的 


哪 种 饮料 含有 伏特 加 ? (注意 ， 后 面 例子 中 我 会 提前 使 用 一 点 下 一 章 出 现 的 for、 











以 及 or 语句 。) 


>>> for name, contents in drinks.items(): 
if 'vodka' in contents: 
print(name) 


screwdriver 
martini 

black russian 
white russian 


if、 


and 


我 想 挑 的 饮料 需要 有 伏特 加 ， 但 不 含 乳糖 。 此 外 ， 我 很 讨厌 苗 艾 酒 ， 觉 得 它 尝 起 来 就 像 煤 





油 一 样 : 
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>>> for name, contents in drinks.items(): 
if 'vodka' in contents and not ('vermouth' in contents or 
"cream' in contents): 
print(name) 
screwdriver 
black russian 


后 面 的 内 容 会 将 上 面 的 代码 改写 得 更 加 简洁 。 


3.5.4 合并 及 运算 符 


如 果 想 要 查看 多 个 集合 之 间 组 合 的 结果 应 该 怎么 办 ? 例如， 你 想 要 找到 一 种 饮料 ， 它 含有 
果汁 或 含有 苗 艾 酒 。 我 们 可 以 使 用 交集 运算 符 ， 记 作 &: 
>>> for name, contents in drinks.items(): 


if contents & {'vermouth', 'orange juice'}: 
print(name) 









































screwdriver 
martini 
manhattan 


& 运算 符 的 结果 是 一 个 集合 ， 它 包含 所 有 同时 出 现在 你 比较 的 两 个 清单 中 的 元 素 。 在 上 面 代 
码 中 ， 如 果 contents 里 面 不 包含 任何 一 种 指定 成 分 ， 则 & 会 返回 一 个 空 集 ， 相 当 于 False。 


现在 来 改写 一 下 上 一 小 节 的 例子 ， 就 是 那个 我 们 想 要 伏特 加 但 不 需要 乳脂 也 不 需要 苦 艾 酒 
的 例子 : 
>>> for name, contents in drinks.items(): 


if 'vodka' in contents and not contents & {'vermouth', 'cream'}: 
print(name) 






































screwdriver 
black russian 


将 这 两 种 饮料 的 原料 都 存储 到 变量 中 ， 以 便于 后 面 的 例子 不 用 再 重复 输入 : 


>>> bruss 
>>> wruss 


之 后 的 例子 会 涵盖 所 有 的 集合 运算 符 。 有 些 运 算 使 用 特殊 定义 过 的 标点 ， 男 一 些 则 使 用 函数 ， 
还 有 一 些 运算 两 者 都 可 使 用 。 这 里 使 用 测试 集合 a (包含 1 和 ?2), 以 及 b (包含 2 和 3) : 
>>> a = {1, 2} 
>>> b = {2, 3} 
可 以 通过 使 用 特殊 标点 符号 & 或 者 集合 函数 intersection() 获取 集合 的 交集 (两 集合 共有 
元 素 ) ， 如 下 所 示 : 
>>> a &b 
{2} 


>>> a.intersection(b) 


{2} 


drinks['black russian'] 
drinks['white russian'] 
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下 面 的 代码 片段 使 用 了 我 们 之 前 存储 的 饮料 变量 : 


>>> bruss & wruss 
{'kahlua' ， 'vodka'} 


下 面 的 例子 中 ， 使 用 | 或 者 union() 函数 来 获取 集合 的 并 集 (至 少 出 现在 一 个 集合 中 的 元 素 ) : 


>>> a | b 
{1, 2,3} 
>>> a.union(b) 
{1, 2,3} 


还 有 酒精 饮料 的 例子 : 


>>> bruss | wruss 
{'cream', 'kahlua', 'vodka'} 


使 用 字符 - 或 者 difference() 可 以 获得 两 个 集合 的 差 集 (出 现在 第 一 个 集合 但 不 出 现在 第 


二 个 集合 ) : 





>>> a.difference(b) 


{1} 


>>> bruss - wruss 

set() 

>>> Wruss - bruss 

{'cream'} 
到 目前 为 止 ， 出现 的 都 是 最 常见 的 集合 运算 ， 包括 交 、 并 、 差 。 出 于 完整 性 的 考虑 ， 我 会 
在 接 下 来 的 例子 中 列 出 其 他 的 运算 符 ， 这 些 运算 符 并 不 常用 。 
使 用 ^ 或 者 symmetric_difference() 可 以 获得 两 个 集合 的 异 或 集 〈 仅 在 两 个 集合 中 出 现 一 次 ) : 


>>> a^b 


{1, 3} 
>>> a.symmetric difference(b) 


{1, 3} 
下 面 的 代码 帮 有 我 们 找到 了 两 种 俄罗斯 饮料 的 不 同 成 分 : 

>>> bruss ^ wruss 

{'cream'} 
使 用 <= 或 者 issubset() 可 以 判断 一 个 集合 是 否 是 另 一 个 集合 的 子 集 (第 一 个 集合 的 所 有 
元 素 都 出 现在 第 二 个 集合 中 ) : 

>>> a <=b 

False 


>>> a.issubset(b) 
False 


“ 黑 俄 罗斯 酒 ” 中 加 入 一 些 乳 脂 就 变 成 了 “白俄罗斯 酒 *， 因 此 wruss 是 bruss 的 超 集 : 


>>> bruss <= wruss 
True 
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可 
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一 个 集合 是 它 本 身 的 子 集 吗 ? 答案 为 : 是 的 。 


>>> 9 <= 9 

True 

>>> a.issubset(a) 
True 


当 第 二 个 集合 包含 所 有 第 一 个 集合 的 元 素 ， 且 仍 包含 其 他 元 素 时 ， 我 们 称 第 一 个 集合 为 第 
二 个 集合 的 真子 集 。 使 用 < 可 以 进行 判断 : 


>>> a < b 
False 
>>> ga < 9 
False 














>>> bruss < wruss 
True 


超 集 与 子 集 正好 相反 (第 二 个 集合 的 所 有 元 素 都 出 现在 第 一 个 集合 中 )， 使 用 >= 或 者 
issuperset() 可 以 进行 判断 : 

>>> a >= b 

False 


>>> a.issuperset(b) 
False 


>>> Wruss >= bruss 
True 


一 个 集合 是 它 本 身 的 超 集 : 


>>> dd >= 9a 

True 

>>> a.issuperset(a) 
True 


最 后 ， 使 用 > 可 以 找到 一 个 集合 的 真 超 集 (第 一 个 集合 包含 第 二 个 集合 的 所 有 元 素 且 还 包 
含 其 他 元 素 ) : 


>>> a > b 
False 





>>> Wruss > bruss 
True 


一 个 集合 并 不 是 它 本 身 的 真 超 集 : 


>>> ga > 9 
False 


3.6 比较 几 种 数据 结构 


回顾 一 下 ， 我 们 学 会 了 使 用 方 括号 〈[]) 创建 列表 ， 使 用 喜 号 创建 元 组 ， 使 用 花 括 号 (人) 
创建 字典 。 在 每 一 种 类 型 中 ， 都 可 以 通过 方 括号 对 单个 元 素 进行 访问 : 
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>>> marx_list = ['Groucho', 'Chico', 'Harpo'] 

>>> marx_tuple = 'Groucho', 'Chico', 'Harpo' 

>>> marx_dict = {'Groucho': 'banjo', 'Chico': 'piano', 'Harpo': ‘harp'} 
>>> marx_list[2] 

"Harpo ' 

>>> marx_tuple[2] 

"Harpo ' 

>>> marx_dict['Harpo'] 

"harp' 


对 于 列表 和 元 组 来 说 ， 方 括号 里 的 内 容 是 整 型 的 偏 移 量 ， 而 对 于 字典 来 说 ， 方 括号 里 的 是 
键 。 它 们 返回 的 都 是 元 素 的 值 。 


3.7 建立 大 型 数据 结构 


我 们 从 最 简单 的 布尔 型 、 数 字 、 字 符 串 型 开始 学 习 ， 到 目前 为 止 ， 学 习 到 了 列表 、 元 组 、 
集合 以 及 字典 等 数据 结构 。 你 可 以 将 这 些 内 置 的 数据 结构 自由 地 组 合成 更 大 、 更 复杂 的 结 
构 。 试 着 从 建立 三 个 不 同 的 列表 开始 : 


>>> marxes = ['Groucho', 'Chico', 'Harpo'] 
>>> pythons = ['Chapman', 'Cleese', 'Gilliam', 'Jones', 'Palin'] 
>>> stooges = ['Moe'’, 'Curly', 'Larry'] 


可 以 把 上 面 每 一 个 列表 当 作 一 个 元 素 ， 并 建立 一 个 元 组 : 


>>> tuple_of_lists = marxes, pythons, stooges 

>>> tuple_of_lists 

(['Groucho', 'Chico', 'Harpo'], 

['Chapman', 'Cleese', 'Gilliam', 'Jones', 'Palin'], 
['Moe', 'Curly', 'Larry']) 


同样 ， 可 以 创建 一 个 包含 上 面 三 个 列表 的 列表 : 


>>> list_of_lists = [marxes, pythons, stooges] 

>>> list _of_lists 

[['Groucho', 'Chico', 'Harpo'], 

['Chapman', 'Cleese', 'Gilliam', 'Jones', 'Palin'], 
['Moe', 'Curly', 'Larry']] 


还 可 以 创建 以 这 三 个 列表 为 值 的 字典 。 本 例 中 ， 使 用 这 些 喜 剧 演员 组 合 的 名 字 作 为 键 ， 成 
员 列 表 作 为 值 : 


>>> dict_of_lists = {'Marxes': marxes, 'Pythons': pythons, 'Stooges': stooges} 
>> dict of_lists 

{'Stooges': ['Moe', 'Curly', 'Larry'], 

'Marxes': ['Groucho', 'Chico', 'Harpo'], 

'Pythons': ['Chapman', 'Cleese', 'Gilliam', 'Jones', 'Palin']} 


在 创建 自 定义 数据 结构 的 过 程 中 ， 唯 一 的 限制 来 自 于 这 些 内 置 数据 类 型 本 身 。 比 如 ， 字 典 
的 键 必 须 为 不 可 变 对 象 ， 因 此 列表 、 字 典 以 及 集合 都 不 能 作为 字典 的 键 ， 但 元 组 可 以 作为 
字典 的 键 。 举 个 例子 ， 我 们 可 以 通过 GPS 坐标 (纬度 ， 经 度 ， 海 拔 ，B.6 节 可 以 看 到 更 多 
与 地 图 有 关 的 例子 ) 定位 感 兴趣 的 位 置 : 
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>>> houses = { 
(44.79, -93.14, 285): 'My House ' ， 
(38.89, -77.03, 13): 'The White House' 
} 


3.8 练习 


在 这 一 章 ， 你 见 到 了 一 些 更 为 复杂 的 数据 结构 : 列表 、 元 组 、 字 典 和 集合 。 你 可 以 使 用 
这 些 数据 结构 以 及 第 2 章 提 到 的 数据 类 型 (数字 和 字符 串 ) 来 表示 现实 生活 中 各 种 各 样 


(1) 创建 一 个 叫 作 years_List 的 列表 ， 存 储 从 你 出 生 的 那 一 年 到 五 岁 那 一 年 的 年 份 。 例 
如 ， 如 果 你 是 1980 年 出 生 的 ， 那 么 你 的 列表 应 该 是 years_List = [1980，1981，1982， 
1983，1984，1985] 。 

如 果 你 现在 还 没 到 五 岁 却 在 阅读 本 书 ， 那 我 真 的 没有 什么 可 教 你 的 了 。 

(2) 在 years_list 中 ， 哪 一 年 是 你 三 岁 生日 那 年 ? 别 忘 了 ， 你 出 生 的 第 一 年 算 0 岁 。 

(3) 在 years_list 中 ， 哪 一 年 你 的 年 纪 最 大 ? 

(4 创建 一 个 名 为 things 的 列表 ， 包 含 以 下 三 个 元 素 : "mozzarella"、"cinderella" 和 

"saLmoneLLa 。 

(5) 将 things 中 代表 人 名 的 字符 串 变 成 首 字 母 大 写 形式 ， 并 打印 整个 列表 。 看 看 列表 中 的 

元 素 改变 了 吗 ? 

(6) 将 things 中 代表 奶酪 的 元 素 全 部 改 成 大 写 ， 并 打印 整个 列表 。 

(7) 将 代表 疾病 的 元 素 从 things 中 删除 ， 收 好 你 得 到 的 诺 贝尔 奖 ， 并 打印 列表 。 

(8) 创建 一 个 名 为 surprise 的 列表 ， 包 含 以 下 三 个 元 素 : "Groucho"、"Chico" 和 "Harpo"。 

(9) 将 surprise 列表 的 最 后 一 个 元 素 变 成 小 写 ， 翻 转 过 来 ， 再 将 首 字母 变 成 大 写 。 

(10) 创建 一 个 名 为 e2f 的 英法 字典 并 打印 出 来 。 这 里 提供 一 些 单词 对 : dog 是 chien，cat 
是 chat，walrus 是 morse。 

(11) 使 用 你 的 仅 包含 三 个 词 的 字典 e2f 查询 并 打印 出 watrus 对 应 的 的 法 语词 。 

(12) 利用 e2f 创建 一 个 名 为 f2e 的 法 英 字 典 。 注 意 要 使 用 items 方法 。 

(13) 使 用 f2e， 查 询 并 打印 法 语词 chien 对 应 的 英文 词 。 

(14) 创建 并 打印 由 e2f 的 键 组 成 的 英语 单词 集合 。 

(15) 建立 一 个 名 为 Life 的 多 级 字典 。 将 下 面 这 些 字符 串 作 为 顶级 键 : 'animals'、'plants' 
以 及 'others'。 今 'animals' 键 指向 另 一 个 字典 ， 这 个 字典 包含 键 "cats' 、'octopi' 
以 及 'emus'。 令 'cat' 键 指向 一 个 字符 串 列 表 ， 这 个 列表 包括 'Henrt' 、'Grumpy' 和 
'Lucy' 。 让 其 余 的 键 都 指向 空 字 典 。 

(16) 打印 tife 的 顶级 键 。 

(17) 打印 tife['animals'] 的 全 部 键 。 

(18) 打印 Life[ 'animals']['cats'] 的 值 。 
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Python 外 达 :， 代码 结构 





在 前 三 章 中 ， 我 们 用 到 很 多 关于 数据 的 例子 ,但 是 没有 对 它们 进行 复杂 的 操作 。 大 多 数 
的 示例 代码 都 很 短 ， 并 且 使 用 交互 式 解释 器 进行 解释 执行 。 本 章 将 介绍 如 何 组 织 代码 和 
数据 。 

许多 计算 机 编程 语言 使 用 字符 〈 例 如 花 括 号 { 和 }) 或 者 关键 字 (例如 begin 和 end) 来 划 
分 代码 段 。 在 这 些 语言 中 ， 使 用 一 致 的 代码 缩 进 可 以 增加 代码 的 可 读 性 ， 并 且 有 很 多 便利 
的 工具 整理 缩 进 代 码 。 

在 吉 多 ` 范 : 罗 苏 姆 开始 考虑 设计 Python 语言 时 ， 他 决定 通过 代码 缩 进 来 区 分 代码 块 结构 ， 
避免 输入 大 多 的 花 括 号 和 关键 字 。Python 使 用 空 日 来 区 分 代码 结构 ， 这 是 初学 者 需要 注意 
的 不 同 寻常 的 第 一 点 ， 而 且 有 其 他 语言 开发 经 验 的 人 会 觉得 奇怪 。 但 使 用 Python 一 段 时 间 
百 会 觉得 很 自然 ， 而 且 会 习惯 于 编写 简洁 的 代码 来 进 f 了 大 量 的 编程 工作 。 


4.1 “使 用 #4 注释 
注释 是 程序 中 会 被 Python 解释 器 忽略 的 一 段 文本 。 通 过 使 用 注释 ， 可 以 解释 和 明确 Python 
代码 的 功能 ， 记 录 将 来 要 修改 的 地 方 ， 其 至 写 下 你 想 写 的 任何 东西 。 在 Python 中 使 用 # 字 
符 标 记 注释 ， 从 # 开 始 到 当前 行 结束 的 部 分 都 是 注释 。 你 可 以 把 注释 作为 单独 的 一 行 ， 如 
下 所 示 : 

>>> # 60 sec/min * 60 min/hr * 24 hr/day 

>>> seconds_per_day = 86400 
也 可 以 把 注释 和 代码 放 在 同一 行 : 


>>> seconds_per_day = 86400 # 60 sec/min * 60 min/hr * 24 hr/day 
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# 有 很 多 含义 和 叫 法 : hash、sharp、pound 或 者 octothorpe'。 无 论 你 如 何 称 呼 它 *， 在 Python 
代码 中 ， 注 释 的 作用 只 对 它 出 现 的 当前 行 有 效 。 
Python 没有 多 行 注释 的 符号 。 你 需要 明确 地 在 注释 部 分 的 每 一 行 开始 处 加 上 一 个 #。 

>>> # 尽管 Python 不 会 喜欢 ,但 是 我 可 以 在 这 里 讲 任 何 东 西 


.… # 因为 我 被 "保护 ” 
. # 令 人 敬 展 的 # 号 








>>> 




















然而 ， 如 果 它 出 现在 文本 串 中 ， 将 回归 普通 字符 # 的 角色 : 


>>> print("No comment: quotes make the # harmless") 
No comment: quotes make the # harmless. 


4.2 ”使 用 \ 连 接 


程序 在 合理 的 长 度 下 是 易 读 的 。 一 行程 序 的 ( 非 强 制 性 ) 最 大 长 度 建议 为 80 个 字符 。 如 
果 你 在 该 长 度 下 写 不 完 你 的 代码 ， 可 以 使 用 连接 符 \( 反 斜 线 )。 把 它 放 在 一 行 的 结束 位 
置 ，Python 仍然 将 其 解释 为 同一 行 。 

例如 ， 假 设想 把 一 些 短 字符 串 拼 接 为 一 个 长 字符 串 ， 可 以 按照 下 面 的 步骤 : 


号 























>>> aLphabet = 
>>> alphabet += “abcdefg' 
>>> aLphabet += “hijkLmnop' 
>>> aLphabet += 'qrstuv' 
>>> alphabet += 'wxyz' 


或 者 ， 使 用 连接 符 一 步 就 可 以 完成 : 


>>> alphabet = 'abcdefg' + \ 
'hijklmnop' + \ 
'qrstuv' + \ 
'WXxyz' 


在 Python 表达 式 占 很 多 行 的 情况 下 ， 行 连接 符 也 是 必需 的 : 


>>> 1 + 2 + 
File "<stdin>", line 1 
1+2+ 
八 
SyntaxError: invalid syntax 
>>>1+2+\ 
S43 
6 


>>> 





注 1: 样子 像 在 你 身边 的 凶恶 的 八 脚 怪 物 。 
注 2: 咕 ， 别 叫 它 ， 小 心 它 回来 找 你 。 
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4.3 ”使 用 if、elif 和 else 进 行 比较 


到 目前 为 止 ， 我 们 几乎 一 直 在 讨论 数据 结构 。 现 在 ， 我 们 将 迈 出 探讨 代码 结构 的 第 一 步 ， 
将 数据 编排 成 代码 (上 一 章 讲 到 集合 时 已 经 见 到 一 些 例子 ,希望 那些 不 会 造成 理解 困难 )。 
下 面 第 一 个 例子 是 一 个 Python 小 程序 ， 判 断 一 个 布尔 变量 disaster 的 值 ， 然 后 打印 输出 
合适 的 取 值 : 
>>> disaster = True 
>>> if disaster: 
print("Woe!") 
. else: 
print("Whee!") 

















Woe! 
程序 中 ，if 和 else 两 行 是 Python 用 来 声明 判断 条 件 (本 例 中 是 disaster 的 值 ) 是 否 满足 
的 语句 。print() 是 将 字符 打印 到 屏幕 的 Python 内 建 函 数 。 


如 果 你 之 前 使 用 过 其 他 编程 语言 ， 不 需要 在 if 判断 语句 中 加 上 圆 括 号 ， 例 
如 if (disaster == True) 是 没 必 要 的 ,但 在 判断 的 末尾 要 加 上 冒号 (:)。 
如 果 你 像 我 一 样 有 时 会 忘记 输入 冒号 ， 这 会 导致 Python 解释 器 报错 。 





























每 一 个 print() 在 判断 语句 之 后 要 缩 进 。 我 一 般 缩 进 四 个 空格 。 尽 管 你 可 以 使 用 你 喜欢 的 
任何 方式 缩 进 ， 但 是 在 同一 代码 段 内 最 好 使 用 一 致 的 缩 进 一 一 从 每 一 行 的 左边 开始 使 用 
相同 数量 的 缩 进 字符 。 推 荐 的 代码 缩 进 风格 PEP-8 (http://legacy.python.org/dev/peps/pep- 
0008/) 同样 使 用 四 个 空格 。 避 免 使 用 Tab 字符 或 者 Tab 与 Space 混合 的 缩 进 风格 ， 这 样 会 
使 缩 进 字符 的 数量 变 得 混乱 。 

上 面 的 示例 代码 做 了 以 下 事情 ， 在 随后 的 内 容 中 我 还 会 更 详细 地 介绍 。 


。 将 布尔 值 True 赋值 给 变量 disaster。 
。 使 用 if 和 else 进行 条 件 比 较 判 断 ， 根 据 disaster 的 值 执行 不 同 的 代码 。 
。 调用 print() 函数 ， 在 屏幕 打印 文本 。 


同时 你 可 以 根据 需要 进行 多 层 判断 语句 的 艇 套 : 


>>> furry = True 
>>> small = True 
>>> if furry: 
if small: 
print("It's a cat.") 
else: 
print("It's a bear!") 











. else: 
if small: 
print("It's a skink!") 
else: 
print("It's a human. Or a hairless bear.") 
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It's a cat. 





在 Python 中， 代码 缩 进 决 定 了 if 和 else 是 如 何 配对 的 。 在 第 一 个 判断 furry 中 ， 因 为 
furry 的 值 是 True， 所 以 程序 跳 转 到 执行 判断 if smatl。 我 们 之 前 将 smatl 赋值 为 True， 
所 以 if small 的 值 被 估计 为 True。 因 此 程序 会 执行 它 的 下 一 行 ， 输 出 It's a cat。 


如 果 要 检查 超过 两 个 条 件 ， 可 以 使 用 if、elif ( 即 else if) 和 else: 


>>> color = "puce" 
>>> if color == "red": 
print("It's a tomato") 
. elif color == "green": 
print("It's a green pepper") 
. elif color == "bee purple": 
print("I don't know what it is, but only bees can see it") 
. else: 
print("I've never heard of the color", color) 


I've never heard of the color puce 


上 面 的 例子 中 ， 我 们 使 用 了 == 作为 判断 相等 的 操作 符 ，Python 中 的 比较 操作 符 见 下 表 。 

















相等 == 
不 等 于 := 
小 于 < 

不 大 于 <= 
类 于 > 

不 小 于 Se 
属于 Efi 





这 些 操作 符 都 返回 布尔 值 True 或 者 False。 让 我 们 看 看 这 些 是 如 何 执行 的 ， 首 先 对 变量 x 
赋值 : 


>>> X = 7 


现在 ， 测 试 一 些 例子 : 


>>> X ==: 5 
False 
3 
True 
>>> 5 < X 
True 
>>> X < 10 
True 


注意 ， 两 个 等 号 (==) 是 用 来 判断 相等 的 ， 而 一 个 等 号 (=) 是 把 某 个 值 赋 给 一 个 变量 


如 果 你 想 同 时 进行 多 重 比较 判断 ， 可 以 使 用 布尔 操作 符 and、or 或 者 not 连接 来 决定 最 终 
表达 式 的 布尔 取 值 。 





























o 




















布尔 操作 符 的 优先 级 没有 比较 表达 式 的 代码 段 高 ， 也 就 是 说 ， 表 达 式 要 先 计算 然后 再 比 
较 。 在 这 个 例子 中 ，x 赋值 为 7，5 < x 返 回 True，x < 19 也 同样 返回 True, 最 终 的 结果 就 


是 True and True: 

















>>> 5< x andx< 10 
True 


2.2.2 节 中 提 到 ， 避 免 混 消 的 最 简单 的 办 法 是 加 花 括号 : 


>>> (5<x) and( x < 10) 
True 


下 面 是 其 他 的 一 些 例子 : 


>>>5<xorx<10 
True 

>>> 5<x andx > 10 
False 

>>> 5 < x and not x > 10 
True 


























如 果 对 同一 个 变量 做 多 个 and 比较 操作 ，Python 允许 下 面 的 用 法 : 


>>> 5<x< 10 
True 





这 个 表达 式 和 5 < x and x < 19 是 一 样 的 ， 你 也 可 以 使 用 更 长 的 比较 : 


>>> 5<x< 10 < 999 
True 


什么 是 真 值 (True) 
如 果 表 达 式 的 返回 类 型 不 是 布尔 会 发 生 什么 ”什么 情况 下 Python 会 认为 是 True 和 False? 
一 个 成 假 赋 值 不 一 定 明确 表示 为 Fatse， 下 面 的 情况 也 会 被 认为 是 False。 




















布尔 False 
null 类 型 None 
整 型 0 

浮 点 型 0.0 
空 字符 串 

空 列 表 [] 

空 元 组 () 

空 字 典 {} 

空 集合 set() 





剩 下 的 都 会 被 认为 是 True。Python 程序 中 使 用 定义 “ 真 值 ”( 在 本 例 中 是 “ 假 值 ”) 的 方式 
来 判断 数据 结构 是 否 为 空 以 及 成 假 条 件 : 


>>> some_list = [] 
>>> if some_list: 
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print("There's something in here") 
.. else: 
print("Hey, it's empty!") 
jiev it's empty! 
如 果 你 在 判断 一 个 表达 式 而 不 是 一 个 简单 的 变量 ，Python 会 先 计 算 表 达 式 的 值 ， 然 后 返回 
布尔 型 结果 。 所 以 ， 如 果 你 输入 以 下 的 式 子 : 


if color == "red": 


Python 会 判断 cotor == “red"。 在 例子 中 ， 把 颜色 赋值 为 字符 串 "puce"， 所 以 color == 
"red" 是 成 假 的 ，Python 转 而 执行 下 面 的 判断 : 


elif color == "green": 


4.4 ”使 用 while 进 行 循环 


使 用 if、elif 和 else 条 件 判 断 的 例子 是 自 顶 向 下 执行 的 ， 但 是 有 时 候 我 们 需要 重复 一 
操作 一 一 循环 。Python 中 最 简单 的 循环 机 制 是 while。 打 开交 互 式 解释 器 ， 执 行 下 面 的 从 
1 打印 到 5 的 简单 循环 : 

>>> count = 1 

>>> while count <= 5: 


print(count) 
count += 1 
























































URWUDNDPA. .，. 


>>> 


首先 将 变量 count 的 值 赋 为 1，while 循环 比较 count 的 值 和 5 的 大 小 关系 ， 如 果 count 小 
于 等 于 5 的 话 继续 执行 。 在 循环 内 部 ， 打印 count 变量 的 值 ， 然 后 使 用 语句 count += 1 对 
count 进行 自 增 操作 ， 返 回 到 循环 的 开始 位 置 ， 继 续 比 较 count 和 5 的 大 小 关系 。 现 在 ， 
count 变量 的 值 为 2， 因 此 white 循环 内 部 的 代码 会 被 再 次 执行 ，count 值 变 为 3 。 


在 count 从 5 自 增 到 6 之 前 循环 一 直 进行 。 然 后 下 次 判断 时 ，count <= 5 的 条 件 不 满足 ， 
while 循环 结束 。Python 跳 到 循环 下 面 的 代码 。 


4.4.1 使 用 break 跳 出 循环 

如 果 你 想 让 循环 在 某 一 条 件 下 停止 ， 但 是 不 确定 在 哪 次 循环 跳出 ， 可 以 在 无 限 循环 中 声明 
break 语句 。 这 次 ， 我 们 通过 Python 的 input() 国 数 从 键盘 输入 一 行 字符 串 ， 然 后 将 字符 
串 首 字母 转化 成 大 写 输出 。 当 输入 的 一 行 仅 含 有 字符 q 时 ， hy 


>>> while True: 
stuff = input("String to capitalize [type q to quit]: ") 





























if stuff == "q": 
break 
print(stuff.capitalize()) 


String to capitalize [type q to quit]: test 
Test 


String to capitalize [type q to quit]: hey, it works 


Hey, it works 
String to capitalize [type q to quit]: q 
>>> 


4.4.2 ”使 用 continue 跳 到 循环 开始 








有 时 我 们 并 不 想 结束 整个 循环 ， 仅 仅 想 跳 到 下 一 轮 循 环 的 开始 。 下 面 是 一 个 编造 的 例子 : 
读 入 一 个 整数 ， 如 果 它 是 奇数 则 输出 它 的 平方 数 ， 如 果 是 偶数 则 跳 过 。 同 样 使 用 q 来 结束 





循环 ， 代 码 中 加 上 了 适当 的 注释 : 


>>> while True: 





value = input("Integer, please [q to quit]: 


if vaLue == 'q': # 停止 循环 
break 
number = int(value) 
if number % 2 == 0: 
continue 
print(number, "squared is", number*number) 


# 判断 偶数 


Integer, please [q to quit]: 1 
1 squared is 1 

Integer, please [q to quit]: 2 
Integer, please [q to quit]: 3 
3 squared is 9 

Integer, please [q to quit]: 4 
Integer, please [q to quit]: 5 
5 squared is 25 

Integer, please [q to quit]: q 
>>> 


4.4.3 ”循环 外 使 用 else 

















已 


如 果 while 循环 正常 结束 (没有 使 用 break 跳出 )， 程 序 将 进入 到 可 选 的 else 段 。 当 你 使 





有 找到 可 行 解 时 ， 将 执行 else 部 分 代码 段 : 


>>> numbers = [1, 3, 5] 
>>> position = 0 
>>> while position < len(numbers): 
number = numbers[position] 
if number % 2 == 0: 
print('Found even number', number) 
break 
position += 1 
. else: # 没 有 执行 break 


用 循环 来 遍历 检查 某 一 数据 结构 时 ， 找 到 满足 条 件 的 解 使 用 break 跳出 ， 循 环 结束 ， 即 没 
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print('No even number found ' ) 


No even number found 


else 在 此 处 的 用 法 不 是 很 直观 ， 可 以 认为 是 循环 中 没有 调用 break 后 执行 的 
检查 。 


4.5 使 用 for 和 迭代 


Python 频繁 地 使 用 迭代 器 。 它 允许 在 数据 结构 长 度 未 知 和 具体 实现 未 知 的 情况 下 遍历 整个 
数据 结构 ， 并 且 支 持 迄 代 快 速 读 写 中 的 数据 ， 以 及 允许 不 能 一 次 读 入 计算 机 内 存 的 数据 流 
的 处 理 。 


下 面 这 一 遍历 序列 的 方法 是 可 行 的 : 


>>> rabbits = ['Flopsy', 'Mopsy', 'Cottontail', 'Peter'] 
>>> current = 0 
>>> while current < len(rabbits): 
print(rabbits[current]) 
current += 1 














Flopsy 
Mopsy 
Cottontail 
Peter 


但 是 ， 有 一 种 更 优雅 的 、Python 风格 的 遍历 方式 : 


>>> for rabbit in rabbits: 
print(rabbit) 

Flopsy 

Mopsy 

Cottontail 

Peter 


列表 (例如 rabbits)、 字 符 串 、 元 组 、 字 上 典 、 集 合 等 都 是 Python 中 可 迭代 的 对 象 。 元 组 或 
者 列表 在 一 次 迭代 过 程 产生 一 项 ， 而 字符 串 迭 代 会 产生 一 个 字符 ， 如 下 所 示 : 
>>> word = 'cat' 


>>> for letter in word: 
print(letter) 





C 
t 


对 一 个 字典 (或 者 字典 的 keys() 函数 ) 进行 迭代 将 返回 字典 中 的 键 。 在 下 面 的 例子 中 ， 字 
典 的 键 为 图 板 游戏 Clue 〈《《 妙 探寻 凶 》) 中 牌 的 类 型 : 
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>>> accusation = {'room': 'ballroom', 'weapon': 'lead pipe', 
'person': 'Col. Mustard'} 
>>> for card in accusation: # 或 者 是 for card in accusation.keys(): 
print(card) 
room 
weapon 
person 


如 有 果 想 对 字典 的 值 进行 迭代 ， 可 以 使 用 字典 的 values() 函数 : 


>>> for vaLue in accusation.vaLues() : 
print(vaLue) 





baLLroom 
Lead pipe 
Col. Mustard 


为 了 以 元 组 的 形式 返回 键 值 对 ， 可 以 使 用 字典 的 items() 函数 : 


>>> for item in accusation.items(): 
print(item) 

















('room', 'ballroom') 
('weapon', 'lead pipe') 
('person', 'Col. Mustard') 


记 住 ,元 组 只 能 被 初始 化 一 次 ， 它 的 值 是 不 能 改变 的 。 对 于 调用 函数 items() 返 








个 元 组 ， 将 第 一 个 返回 值 ( 键 ) 赋 给 card， 第 二 个 返回 值 ( 值 ) 赋 给 contents: 


>>> for card, contents in accusation.items(): 
print('Card', card, 'has the contents', contents) 





Card weapon has the contents lead pipe 
Card person has the contents Col. Mustard 
Card room has the contents ballroom 


4.5.1 使 用 break 跳 出 循环 
在 for 循环 中 跳出 的 用 法 和 在 while 循环 中 是 一 样 的 。 


4.5.2 ”使 用 continue 跳 到 循环 开始 














4.5.3 ”循环 外 使 用 else 


回 的 每 一 





在 一 个 循环 中 使 用 continue 会 跳 到 下 一 次 的 迭代 开始 ， 这 一 点 和 white 循环 也 是 类 似 的 。 


类 似 于 while，for 循环 也 可 以 使 用 可 选 的 else 代码 段 ， 用 来 判断 for 循环 是 否 正 常 结 束 








(没有 调用 break 跳出 ) ， 否 则 会 执行 else 段 。 

















循环 打印 输出 奶 酷 的 名 称 ， 并 且 如 果 任 一 奶 酷 在 商店 中 找到 则 跳出 循环 : 








当 你 想 确认 之 前 的 for 循环 是 否 正常 跑 完 ， 增 加 else 判断 是 有 用 的 。 下 面 的 例子 中 ，for 
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>>> cheeses = [] 
>>> for cheese in cheeses : 
print('This shop has some lovely', cheese) 
5 break 
. else: # 没有 break 表 示 没 有 找到 奶 酷 


print('This is not much of a cheese shop, is it?') 


This is not much of a cheese shop, is it? 


在 for 循环 外 使 用 else 可 能 和 while 循环 一 样 ， 不 是 很 直观 和 容易 理解 。 下 
面 的 理解 方式 会 更 清楚 : for 循环 用 来 遍历 查找 ， 如 果 没 有 找到 则 调用 执行 
else。 同 样 在 没有 else 的 情况 下 ， 为 了 达到 相同 的 作用 ， 可 以 声明 某 个 变量 
指出 在 for 循环 中 是 否 找到 ， 看 下 面 的 例子 : 


>>> cheeses = [] 

>>> found_one = False 

>>> for cheese in cheeses: 
found_one = True 
print('This shop has some lovely', cheese) 
break 





























>>> if not found_one: 
print('This is not much of a cheese shop, is it?') 


This is not much of a cheese shop, is it? 


4.5.4 使 用 zip() 并 行 和 迭代 
在 使 用 迭代 时 ， 有 一 个 非常 方便 的 技巧 ， 通 过 zip() 函数 对 多 个 序列 进行 并 行 先 代 : 


>>> days = ['Monday', 'Tuesday', 'Wednesday'] 

>>> fruits = ['banana', 'orange', 'peach'] 

>>> drinks = ['coffee', 'tea', 'beer'] 

>>> desserts = ['tiramisuy', 'ice cream', 'pie', 'pudding'] 

>>> for day, fruit, drink, dessert in zip(days, fruits, drinks, desserts): 
print(day, ": drink", drink, "- eat", fruit, "- enjoy", dessert) 





Monday : drink coffee - eat banana - enjoy tiramisu 
Tuesday : drink tea - eat orange - enjoy ice cream 
Wednesday : drink beer - eat peach - enjoy pie 


zip() 函数 在 最 短 序列 “用 完 ” 时 就 会 停止 。 上 面 例子 中 的 列表 (desserts) 是 最 长 的 ， 所 
以 我 们 无 法 填充 列表 ， 除 非 人 工 扩展 其 他 列表 。 

3.4 节 中 的 dict() 函数 会 将 两 项 序列 ， 比 如 元 组 、 列 表 、 字 符 串 ， 创 建成 一 个 字典 ， 同 时 
使 用 zip() 国 数 可 以 遍历 多 个 序列 ， 在 具有 相同 位 移 的 项 之 间 创 建 元 组 。 下 面 创 建英 语 单 
词 和 法 语 单词 乙 间 的 对 应 关系 的 两 个 元 组 : 


>>> english = 'Monday', 'Tuesday', 'Wednesday' 
>>> french = 'Lundi', 'Mardi', 'Mercredi' 


现在 使 用 zip() 函数 配对 两 个 元 组 。 函 数 的 返回 值 既 不 是 元 组 也 不 是 列表 ， 而 是 一 个 整合 
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在 一 起 的 可 迭代 变量 : 


>>> list( zip(english, french) ) 
[('Monday', 'Lundi'), ('Tuesday', 'Mardi'), ('Wednesday', 'Mercredi')] 


配合 dict() 函数 和 zip() 函数 的 返回 值 就 可 以 得 到 一 本 微型 的 英法 词典 : 


>>> dict( zip(english, french) ) 
{'Monday': 'Lundi', 'Tuesday': 'Mardi', 'Wednesday': 'Mercredi'} 


4.5.5 使 用 range() 生 成 自然 数 序列 


range() 国 数 返 回 在 特定 区 间 的 自然 数 序列 ， 不 需要 创建 和 存储 复杂 的 数据 结构 ， 例 如 列 
表 或 者 元 组 。 这 人 允许 在 不 使 用 计算 机 全 部 内 存 的 情况 下 创建 较 大 的 区 间 ， 也 不 会 使 你 的 程 
序 崩 溃 。 

range() 函数 的 用 法 类 似 于 使 用 切片 range (start、stop、step)。 而 start 的 默认 值 为 
0。 唯 一 要 求 的 参数 值 是 stop， 产 生 的 最 后 一 个 数 的 值 是 stop 的 前 一 个 ， 并 且 step 的 默 
认 值 是 1。 当然， 也 可 以 反 向 创建 自然 数 序列 ， 这 时 step 的 值 为 -1。 

像 zip()、range() 这 些 国 数 返回 的 是 一 个 可 迭代 的 对 象 ， 所 以 可 以 使 用 for ... in 的 结构 
遍历 ， 或 者 把 这 个 对 象 转化 为 一 个 序列 (例如 列表 )。 我 们 来 产生 序列 9，1，2: 


>>> for x in range(0,3): 
print(x) 























DPAO.. 


>>> list( range(0, 3) ) 
[0, 1, 2] 


下 面 是 如 何 从 2 到 9 反 向 创建 序列 : 


>>> for x in range(2, -1, -1): 
print(x) 














OPN.. 


>>> list( range(2, -1, -1) ) 
[2, 1, 0] 


下 面 的 代码 片段 将 step 赋值 为 2， 得 到 从 9 到 16 的 偶数 : 


>>> list( range(0, 11, 2) ) 
[0, 2, 4, 6, 8, 10] 


4.5.6 ”其 他 迁 代 方式 
第 8 章 将 介绍 文件 之 间 的 选 代 。 在 第 6 章 中 ， 你 会 看 到 如 何在 自己 创建 的 对 象 之 间 选 代 。 
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4.6 推导 式 


推导 式 是 从 一 个 或 者 多 个 迭代 器 快速 简洁 地 创建 数据 结构 的 一 种 方法 。 它 可 以 将 循环 和 条 





件 判断 结合 ， 从 而 避免 语法 元 长 的 代码 。 会 使 用 推导 式 有 时 可 以 说 明 你 已 
学 者 的 水 平 。 也 就 是 说 ， 使 用 推导 式 更 像 Python 风格 。 


4.6.1 列表 推导 式 
你 可 以 从 1 到 5 创建 一 个 整数 列表 ， 每 次 增加 一 项 ， 如 下 所 示 : 


>>> number_list = [] 

>>> number_list.append(1) 
>>> number_list.append(2) 
>>> number_List.append(3) 
>>> number_list.append(4) 
>>> number_List.append(5) 
>>> number_list 

[1, 2, 3, 4, 5] 


或 者 ， 可 以 结合 range() 函数 使 用 一 个 迄 代 器 : 


>>> number_list = [] 
>>> for number in range(1, 6): 
number_list.append(number) 


>>> number_list 
[1, 2, 3, 4, 5] 


或 者 ， 直 接 把 range() 的 返回 结果 放 到 一 个 列表 中 : 


>>> number_list = list(range(1, 6)) 
>>> number_list 
[1, 2, 3, 4, 5] 











经 超过 Python 初 


上 面 这 些 方法 都 是 可 行 的 Python 代码 ， 会 得 到 相同 的 结果 。 然 而 ， 更 像 Python 风格 的 创 














建 列表 方式 是 使 用 列表 推导 。 最 简单 的 形式 如 下 所 示 : 


[ expression for item in iterable ] 
下 面 的 例子 将 通过 列表 推导 创建 一 个 整数 列表 : 


>>> number_list = [number for number in range(1,6)] 
>>> number_List 
[1, 2, 3, 4, 5] 

















在 第 一 行 中 ， 第 一 个 number 变量 为 列表 生成 值 ， 也 就 是 说 ， 把 循环 的 结果 放 在 列表 























number_list 中 。 第 二 个 number 为 循环 变量 。 其 中 第 一 个 number 可 以 为 表达 式 ， 试 试 下 面 


改编 的 例子 : 


>>> Number_list = [number-1 for number in range(1,6)] 
>>> number_list 
[09, 1, 2, 3, 4] 





列表 推导 把 循环 放 在 方 括号 内 部 。 这 种 例子 和 之 前 碰 到 的 不 大 一 样 ， 但 却 是 更 为 常见 的 方 
式 。 同 样 ， 列 表 推 导 也 可 以 像 下 面 的 例子 加 上 条 件 表达 式 : 


[expression for item in iterable if condition] 


现在 ， 通 过 推导 创建 一 个 在 1 到 5 之 间 的 偶数 列表 ( 当 number % 2 为 真 时 ， 代 表 奇 数 ， 为 
假 时 ， 代 表 偶数 ) : 


>>> a_list = [number for number in range(1,6) if number % 2 == 1] 
>>> a_list 
[1, 3, 5] 


于 是 ， 上 面 的 推导 要 比 之 前 传统 的 方法 更 简洁 : 


>>> a_list = [] 
>>> for number in range(1,6): 
if number % 2 == 1: 
a_list.append(number) 





























>>> a_list 
[1, 3, 5] 


最 后 ， 正 如 存在 很 多 艇 套 循环 一 样 ， 在 对 应 的 推导 中 会 有 多 个 for .…. 语句 。 我 们 先 来 看 
一 个 简单 的 供 套 循环 的 例子 ， 并 在 屏幕 上 打印 出 结果 : 


>>> rows = range(1,4) 

>>> cols = range(1,3) 

>>> for row in rows: 

for col in cols: 
print(row, col) 








DPPDPADNDP. .，. 


1 
1 
2 
2 
3 
3 








下 面 使 用 一 次 推导 ， 将 结果 赋值 给 变量 cells， 使 它 成 为 元 组 (row,col): 


>>> rows = range(1,4) 
>>> cols = range(1,3) 
>>> cells = [(row, col) for row in rows for col in cols] 
>>> for cell in cells: 
print(cell) 


7 














(1, 1) 
(1, 2) 
(2, 1) 
(2, 2) 
(3, 1) 
(3, 2) 


另外 ， 在 对 cells 列表 进行 迭代 时 可 以 通过 元 组 拆 封 将 变量 row 和 col 的 值 分 别 取 出 : 
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>>> for row, col in cells: 
print(row, col) 


OODDDOPP +: ， 
DPAPDPAPDPPA.: 











其 中 ， 在 列表 推导 中 for row ... 和 for col ... 都 可 以 有 自己 单独 的 if 条 件 判 断 。 


4.6.2 ”字典 推导 式 

除了 列表 ， 字 典 也 有 自己 的 推导 式 。 最 简单 的 例子 就 像 

{ key_expression : value expression for expression in iterable } 

类 似 于 列表 推导 ， 字 典 推导 也 有 if 条 件 判断 以 及 多 个 for 循环 和 迭代 语句 : 


>>> Word = 'letters' 

>>> Letter_counts = {letter: word.count(Letter) for Letter in word} 

>>> letter_counts 

Cl er 2 Pt 2 
程序 中 ， 对 字符 串 "Letters' 中 出 现 的 字母 进行 循环 ， 计 算出 每 个 字母 出 现 的 次 数 。 对 于 
程序 执行 来 说 ， 两 次 调用 word.count(letter) 浪费 上 时间， 因为 字符 串 中 t 和 e 都 出 现 了 两 
次 ， 第 一 次 调用 word.count() 时 已 经 计算 得 到 相应 的 值 。 下 面 的 例子 会 解决 这 个 小 问题 ， 
更 符合 Python 风格 : 

>>> word = 'letters' 

>>> Letter_counts = {letter: word.count(letter) for letter in set(word)} 

>>> letter_counts 

C2 
字典 键 的 顺序 和 之 前 的 例子 是 不 同 的 ， 因 为 是 对 set(word) 集合 进行 迭代 的 ， 而 前 面 的 例 
子 是 对 word 字符 串 迭 代 。 


4.6.3 ”集合 推导 式 
集合 也 不 例外 ， 同 样 有 推导 式 。 最 简单 的 版 本 和 之 前 的 列表 、 字 典 推导 类 似 ; 


{expression for expression in iterable } 


最 长 的 版 本 (if tests, multiple for clauses) 对 于 集合 而 言 也 是 可 行 的 : 


>>> a_set = {number for number in range(1,6) if number % 3 == 1} 
>>> a_Sset 


{1, 4} 


4.6.4 生成 器 推导 式 


元 组 是 没有 推导 式 的 。 你 可 能 认为 将 列表 推导 式 中 的 方 括 号 变 成 圆 括号 就 可 以 定义 元 组 推 




































































74 | 第 4 章 





导 式 ， 就 像 下 面 的 表达 式 一 样 : 
>>> number_thing = (number for number in range(1, 6)) 
甚 实 ， 圆 括号 之 间 的 是 生成 器 推导 式 ， 它 返回 的 是 一 个 生成 器 对 象 : 


>>> type(number_thing) 
<class 'generotor'> 


节 会 详细 介绍 。 它 是 将 数据 传 给 迭代 器 的 一 种 方式 。 
你 可 以 直接 对 生成 器 对 象 进行 迭代 ， 如 下 所 示 : 


>>> for number in number_thing: 
print(number) 

















mwPP : 


或 者 ， 通 过 对 一 个 生成 器 的 推导 式 调用 List() 函数 ， 使 它 类 似 于 列表 推导 式 .: 


>>> number_List = list(number_thing) 
>>> number_list 
[1, 2, 3, 4, 5] 





一 个 生成 器 只 能 运行 一 次 。 列 表 、 集 合 、 字 符 串 和 字典 都 存储 在 内 存 中 ， 但 
是 生成 器 仅 在 运行 中 产生 值 ， 不 会 被 存 下 来 ， 所 以 不 能 重新 使 用 或 者 备份 一 
个 生成 器 。 





如 果 想 再 一 次 迭代 此 生成 器 ， 会 发 现 它 被 擦 除了 : 
>>> try_again = list(number_thing) 
>>> try_again 


[] 


你 既 可 以 通过 生成 器 推导 式 创建 生成 器 ， 也 可 以 使 用 生成 器 的 函数 。 后 面 会 介绍 这 些 国 
数 ， 并 且 探 讨 这 些 生 成 器 函数 的 特殊 用 法 。 


4.7 ”函数 
到 目前 为 止 ， 我 们 的 Python 代码 已 经 实现 了 小 的 分 块 。 它 们 都 适合 处 理 微 小 任务 ， 但 是 我 
们 想 复 用 这 些 代码 ， 所 以 需要 把 大 型 代码 组 织 成 可 管理 的 代码 段 。 


代码 复 用 的 第 一 步 是 使 用 函数 ， 它 是 命名 的 用 于 区 分 的 代码 段 。 函 数 可 以 接受 任何 数字 或 
者 其 他 类 型 的 输入 作为 参数 ， 并 且 返 回 数 字 或 者 其 他 类 型 的 结果 。 


你 可 以 使 用 函数 做 以 下 两 件 事 情 : 
。 定义 函数 
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。 调用 函数 

为 了 定义 Python 函数 ， 你 可 以 依次 输入 def、 函 数 名 、 带 有 函数 参数 的 圆 括 号 ， 最 后 紧 跟 
一 个 冒号 (:)。 函 数 命名 规范 和 变量 命名 一 样 (必须 使 用 字母 或 者 下 划 线 _ 开头 ， 仅 能 含 
有 字母 、 数 字 和 下 划 线 )。 

我 们 先 定义 和 调用 一 个 没有 参数 的 函数 。 下 面 的 例子 是 最 简单 的 Python 函数 : 


>>> def do_nothing(): 
pass 


即使 对 于 一 个 没有 参数 的 函数 ， 仍 然 需 要 在 定义 时 加 上 圆 括 号 和 冒号 。 下 面 的 一 行 需要 像 
声明 if 语句 一 样 缩 进 。Python 函数 中 的 pass 表明 函数 没有 做 任何 事情 。 和 这 一 页 故意 贸 
白 有 同样 的 作用 (即使 它 不 再 是 )。 

通过 输入 函数 名 和 参数 调用 此 函数 ， 像 前 面 说 的 一 样 ， 它 没有 做 任何 事情 : 


>>> do_nothing() 
>>> 


现在 ， 定 义 一 个 无 参数 ， 但 打印 输出 一 个 单词 的 函数 : 


>>> def make_a_sound(): 
print('quack') 


















































>>> make_a_sound() 
quack 


当 调 用 make_a_sound() 函数 时 ，Python 会 执行 函数 内 部 的 代码 。 在 这 个 例子 中 ， 函 数 打印 
输出 单个 词 ， 并 且 返 回 到 主 程序 。 
下 面 尝试 一 个 没有 参数 但 返回 值 的 函数 : 


>>> def agree(): 
return True 
































或 者 ， 调 用 这 个 函数 ,使 用 if 语句 检查 它 的 返回 值 : 
>>> if agree(): 
print('Splendid!') 
. else: 
print('That was unexpected.') 
splendid! 
学 到 现在 已 经 迈 出 了 很 大 的 一 步 。 在 函数 中 ， 使 用 if 判断 和 for/while 循环 组 合 能 实现 之 
前 无 法 实现 的 功能 。 
这 个 时 候 该 在 函数 中 引入 参数 。 定 义 带 有 一 个 anything 参数 的 函数 echo()。 它 使 用 
return 语句 将 anything 返回 给 它 的 调用 者 两 次 ， 并 在 两 次 中 间 加 入 一 个 空格 : 


>>> def echo(anything): 
return anything + ' ' + anything 

















大 
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>>> 


然后 用 字符 串 'Rumplestiltskin' 调用 函数 echo(): 


>>> echo('Rumplestiltskin') 
'Rumplestiltskin Rumplestiltskin’ 


传人 到 函数 的 值 称 为 参数 。 当 调用 含 参数 的 函数 时 ， 这 些 参数 的 值 会 被 复制 给 函数 中 的 对 
应 参数 。 在 之 前 的 例子 中 ,被 调用 的 函数 echo() 的 传 入 参数 字符 串 是 'Rumplestiltskin'， 
这 个 值 被 复制 给 参数 anything , 然后 返回 到 调用 方 〈 在 这 个 例子 中 ， 输 出 两 次 字符 串 ， 中 
间 有 一 个 空格 ) 。 


上 面 的 这 些 函 数 例子 都 很 基础 。 现 在 我 们 写 一 个 含有 输入 参数 的 函数 ， 它 能 真正 处 理 一 些 
事情 。 在 这 里 依旧 沿用 评论 颜色 的 代码 段 。 调 用 commentary 函数 ， 把 color 作为 输入 的 参 


数 ， 使 它 返 回 对 颜色 的 评论 字符 串 ， 


>>> def commentary(color): 
if color == 'red': 
return "It's a tomato." 
elif color == "green": 
return "It's a green pepper." 
elif color == 'bee purple': 
return "I don't know what it is, but only bees can see it." 
else: 
return "I've never heard of the color " + color + 




















传 入 字符 串 参 数 'bLue' ， 调 用 函数 commentary(): 
>>> comment = commentary('blue') 

这 个 函数 做 了 以 下 事情 : 

。 把 'blue' 赋值 给 函数 的 内 部 参数 color 

。 运行 if-elif-else 的 逻辑 链 

。 返回 一 个 字符 串 

。 将 该 字符 串 赋值 给 变量 comment 

我 们 如 何 得 到 返回 值 呢 ? 


>>> print(comment) 
I've never heard of the color blue. 


一 个 函数 可 以 接受 任何 数量 (包括 0) 的 任何 类 型 的 值 作为 输入 变量 ， 并 且 返 回 任何 数量 
(包括 0) 的 任何 类 型 的 结果 。 如 果 函 数 不 显 式 调用 return 函数 ， 那 么 会 默认 返回 None。 


>>> print(do_nothing()) 
None 
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有 用 的 None 


None 是 Python 中 一 个 特殊 的 值 ， 虽 然 它 不 表示 任何 数据 ， 但 仍然 具有 重要 的 作用 。 
虽然 None 作为 布尔 值 和 False 是 一 样 的 ， 但 是 它 和 False 有 很 多 差别 。 下 面 是 一 个 
例子 : 
>>> thing = None 
>>> if thing: 
print("It's some thing") 
. else: 
print("It's no thing") 


It's no thing 
为 了 区 分 None 和 布尔 值 False , 使 用 Python 的 is 操作 符 : 
>>> if thing is None: 
print("It's nothing") 
. else: 


print("It's something") 


It's nothing 


ell 





这 虽然 是 一 个 微妙 的 区 别 ， 但 是 对 于 Python 来 说 是 很 重要 的 。 你 需要 把 None 和 不 含 
任何 值 的 空 数据 结构 区 分 开 来 。9 值 的 整 型 / 浮 点 型 、 空 字符 串 〈'')、 空 列表 〈[])、 
空 元 组 〈(,))、 空 字典 〈{})、 空 集合 (set()) 都 等 价 于 FaLse， 但 是 不 等 于 None。 


现在 ， 快 速写 一 个 函数 ， 输 出 它 的 参数 是 否 是 None: 


>>> def is_none(thing): 
if thing is None: 
print("It's None") 
elif thing: 
print("It's True") 
else: 
print("It's False") 


现在 ， 运 行 一 些 测试 函数 : 


>>> is_none(None) 
It's None 

>>> is_none(True) 
It's True 

>>> is_none(False) 
It's False 

>>> is_none(0) 
It's False 

>>> is_none(0.0) 
It's False 

>>> is_none(()) 
It's False 
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>>> is_none([]) 
It's False 

>>> is_none({}) 
It's False 

>>> is_none(set()) 
It's False 











4.7.1 位 置 参 数 

Python 处 理 参数 的 方式 要 比 其 他 语言 更 加 灵活 。 其 中 ， 最 熟悉 的 参数 类 型 是 位 置 参数 ， 传 
入 参数 的 值 是 按照 顺序 依次 复制 过 去 的 。 

下 面 创建 一 个 带 有 位 置 参 数 的 函数 ， 并 且 返 回 一 个 字典 : 


>>> def menu(wine, entree, dessert): 
return {'wine': wine, 'entree': entree, 'dessert': dessert} 
























































>>> menu('chardonnay', 'chicken', 'cake') 
{'dessert': 'cake', 'wine': 'chardonnay', 'entree': 'chicken'} 


尽管 这 种 方式 很 常见 ， 但 是 位 置 参数 的 一 个 整 端 是 必须 熟 记 每 个 位 置 的 参数 的 含义 。 在 调 
有 函数 menu() 时 误 把 最 后 一 个 参数 当 作 第 一 个 参数 ， 会 得 到 完全 不 同 的 结果 : 


>>> menu('beef', 'bagel', 'bordeaux') 
{'dessert': 'bordeaux', 'wine': 'beef', 'entree': 'bagel'} 


4.7.2 ”关键 字 参 数 
为 了 避免 位 置 参 数 带 来 的 混乱 ， 调 用 参数 时 可 以 指定 对 应 参数 的 名 字 ， 甚 至 可 以 采用 与 图 
数 定义 不 同 的 顺序 调用 


>>> menu(entree='beef', dessert='bagel', wine='bordeaux') 
{'dessert': 'bagel', 'wine': 'bordeaux', 'entree': 'beef'} 


你 也 可 以 把 位 置 参数 和 关键 字 参 数 混合 起 来 。 首 先 ， 实 例 化 参数 wine， 然 后 对 参数 entree 
和 dessert 使 用 关键 字 参 数 的 方式 : 


>>> menu('frontenac', dessert='flan', entree='fish') 
{'entree': 'fish', 'dessert': 'flan', 'wine': 'frontenac'} 


如 果 同 时 出 现 两 种 参数 形式 ， 首 先 应 该 考虑 的 是 位 置 参数 。 


4.7.3 ”指定 默认 参数 值 
当 调用 方 没有 提供 对 应 的 参数 值 时 ， 你 可 以 指定 默认 参数 值 。 这 个 听 起 来 很 普通 的 特性 实 
际 上 特别 有 用 ， 以 之 前 的 例子 为 例 : 


>>> def menu(wine, entree, dessert='pudding'): 
return {'wine': wine, 'entree': entree, 'dessert': dessert} 


这 一 次 调用 不 带 dessert 参数 的 函数 menu(): 




















了 
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>>> menu('chardonnay', 'chicken') 
{'dessert': 'pudding', 'wine': 'chardonnay', 'entree': 'chicken'} 


如 果 你 提供 参数 值 ， 在 调用 时 会 代替 默认 值 : 


>>> menu('dunkelfelder', 'duck', 'doughnut') 
{'dessert': 'doughnut', 'wine': 'dunkelfelder', 'entree': 'duck'} 




















默认 参数 值 在 函数 被 定义 时 已 经 计算 出 来 ， 而 不 是 在 程序 运行 时 。Python 程 
序 员 经 常 犯 的 一 个 错误 是 把 可 变 的 数据 类 型 (例如 列表 或 者 字典 ) 当 作 默认 
参数 值 。 





在 下 面 的 例子 中 ， 函 数 buggy() 在 每 次 调用 时 ， 添 加 参数 arg 到 一 个 空 的 列表 resutt， 然 
后 打印 输出 一 个 单 值 列表 。 但 是 存在 一 个 问题 : 只 有 在 第 一 次 调用 时 列表 是 空 的 ， 第 二 次 
调用 时 就 会 存在 之 前 调用 的 返回 值 : 

>>> def buggy(arg, result=[]): 


result.append(arg) 
print(result) 





>>> buggy('a') 

['a'] 

>>> buggy('b') # expect ['b'] 
['a', 'b'] 


如 果 写 成 下 面 的 样子 就 会 解决 刚才 的 问题 : 


>>> def works(arg): 
result = [] 
result.append(arg) 
return result 














>>> works('a') 
['a'] 
>>> works('b') 


['b'] 
这 样 的 修改 也 为 了 表明 是 第 一 次 调用 跳 过 一 些 操作 : 


>>> def nonbuggy(arg, result=None): 
if result is None: 
result = [] 
result.append(arg) 
print(result) 





>>> nonbuggy('a') 
['a'] 
>>> nonbuggy('b') 
['b'] 


4.7.4 使 用 * 收 集 位 置 参数 
如 果 你 之 前 使 用 C/C++ 编程 ， 可 能 会 认为 Python 中 的 星 号 (*) 和 指针 相关 。 然 而 ， 
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Python 是 没有 指针 概念 的 。 
当 参 数 被 用 在 国 数 内 部 时 ， 星 号 将 一 组 可 变数 量 的 位 置 参数 集合 成 参数 值 的 元 组 。 在 下 面 
的 例子 中 args 是 传 入 到 函数 print_args() 的 参数 值 的 元 组 : 


>>> def print_args(*args): 
print('Positional argument tuple:', args) 











无 参数 调用 函数 ， 则 什么 也 不 会 返回 : 


>>> print_args() 
Positional argument tuple: () 


给 函数 传 入 的 所 有 参数 都 会 以 元 组 的 形式 返回 输出 : 
>>> print_args(3, 2, 1, 'wait!', 'uh...') 
Positional argument tuple: (3, 2, 1, 'wait!', 'uh...') 

这 样 的 技巧 对 于 编写 像 print() 一 样 接 受 可 变数 量 的 参数 的 函数 是 非常 有 用 的 。 如 果 你 的 

国 数 同时 有 限定 的 位 置 参数 ， 那 么 *args 会 收集 剩 下 的 参数 : 
>>> def print more(required1, required2, *args): 

print('Need this one:', required1) 


print('Need this one too:', required2) 
print('ALL the rest:', args) 
































>>> print more('cap', 'gloves', 'scarf', 'monocle', 'mustache wax') 
Need this one: cap 

Need this one too: gloves 

ALL the rest: ('scarf', 'monocle', 'mustache wax') 


当 使 用 * 时 不 需要 调用 元 组 参数 args， 不 过 这 也 是 Python 的 一 个 常见 做 法 。 


4.7.5 ”使 用 ** 收 集 关 键 字 参 数 
使 用 两 个 星 号 可 以 将 参数 收集 到 一 个 字典 中 ,参数 的 名 字 是 字典 的 键 ， 对 应 参数 的 值 是 字 
典 的 值 。 下 面 的 例子 定义 了 函数 print_kwargs()， 然 后 打印 输出 它 的 关键 字 参 数 : 


>>> def print_kwargs(x*x*kwargs) : 
print('Keyword arguments:', kwargs) 

















现在 ,使 用 一 些 关 键 字 参 数 调用 函数 : 


>>> print_kwargs(wine='merlot', entree='mutton', dessert='macaroon') 
Keyword arguments: {'dessert': 'macaroon', 'wine': 'merlot', 'entree': 'mutton'} 


在 国 数 内 部 ，kwargs 是 一 个 字典 。 


如 果 你 把 带 有 *args 和 **kwargs 的 位 置 参数 混合 起 来 ， 它 们 会 按照 顺序 解析 。 和 args 一 
样 ， 调 用 时 不 需要 参数 kwargs， 这 也 是 常见 用 法 。 
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4.7.6 ”文档 字符 串 


正如 《Python 之 禅 》(the Zen of Python) 中 提 到 的 ， 程 序 的 可 读 性 很 重要 。 建 议 在 函数 体 
开始 的 部 分 附 上 函数 定义 说 明 的 文档 ， 这 就 是 函数 的 文档 字符 囊 : 


>>> def echo(anything): 
"echo returns its input argument 
return anything 


可 以 定义 非常 长 的 文档 字符 串 ， 加 上 详细 的 规范 说 明 ， 如 下 所 示 : 


def print if_ true(thing, check): 





Prints the first argument if a second argument is true. 
The operation is: 

1. Check whether the *second* argument is true. 

2. If it is, print the *first* argument. 


if check: 
print(thing) 


调用 Python 函数 hetp() 可 以 打印 输出 一 个 函数 的 文档 字符 串 。 把 函数 名 传 入 函数 help() 
就 会 得 到 参数 列表 和 规范 的 文档 : 


>>> help(echo) 
Help on function echo in module _main_ 


echo(anything) 
echo returns its input argument 


如 果 仅 仅 想得到 文档 字符 串 : 


>>> print(echo. doc ) 
echo returns its input argument 


看 上 去 很 奇怪 的 _doc__ 是 作为 函数 中 变量 的 文档 字符 串 的 名 字 。4.10 市 的 “名 称 中 - 和 
一 的 用 法 ” 会 解 大 所 有 下 划 线 背后 的 原理 。 


4.7.7 一 等 公民 : 函数 

之 前 提 过 Lyon t= 切 部 是 对 象 ， 包 括 数字 、 字 符 串 、 元 组 、 列 表 、 字 典 和 函数 。 函 数 是 
Python 中 的 一 等 公民 ， 可 以 把 它们 (返回 值 ) 赋 给 变量 ， 可 以 作为 参数 被 其 他 函数 调用 ， 
也 可 以 从 其 他 函数 中 返 回 值 。 它 可 以 帮助 你 在 Python 中 实现 其 他 语言 难以 实现 的 功能 。 
为 了 测试 ,现在 定义 一 个 简单 的 函数 answer()， 它 设 有 任何 参数 ， 仅 仅 打印 输出 数字 42: 


>>> def answer(): 
print(42) 


运行 该 函数 ， 会 得 到 下 面 的 结果 : 


>>> answer() 
42 



























































再 定义 一 个 函数 run_something。 它 有 一 个 参数 func， 这 个 参数 是 一 个 可 以 运行 的 函数 的 
名 字 : 


>>> def run_something(func): 
func() 


将 参数 answer 传 到 该 函数 ， 在 这 里 像 之 前 磁 到 的 一 样 ， 把 函数 名 当 作 数据 使 用 : 


>>> run_something(answer) 
42 


注意 ， 你 传 给 函数 的 是 answer , 而 不 是 answer()。 在 Python 中 辆 括号 意味 着 调用 函数 。 在 


没有 圆 括号 的 情况 下 ，Python 会 把 函数 当 作 普 通 对 象 。 这 是 因为 在 其 他 情况 下 ， 它 也 仅仅 
代表 一 个 对 象 : 


>>> type(run_something) 
<CLass 'function'> 


我 们 来 运行 一 个 带 参数 的 例子 。 定 义 函 数 add_args()， 它 会 打印 输出 两 个 数值 参数 (arg1l 
和 arg2) 的 和 : 


>>> def add args(arg1, arg2): 
print(arg1 + arg2) 


那么 ，add_args() 的 类 型 是 什么 ? 


>>> type(add_args) 
<CLass 'function'> 


此 刻 定 义 一 个 函数 run_something_with_args()， 它 带 有 三 个 参数 : 


















































。 func 一 一 可 以 运行 的 函数 
。 argl func 国 数 的 第 一 个 参数 
。 arg2 func 国 数 的 第 二 个 参数 





>>> def run_something with _args(func, arg1, arg2): 
func(arg1, arg2) 


当 调 用 run_something_with_args() 上 时， 调用 方 传 来 的 函数 赋值 给 func 参数 ， 而 argl 和 
arg2 从 参数 列表 中 获得 值 。 然 后 运行 带 参 数 的 func(arg1，arg2) 。 


将 函数 名 add_args 和 参数 5、9 传 给 函数 run_something_with_args(): 


>>> run_something_with_args(add_args, 5, 9) 
14 


在 图 数 run_something_with_args() 内 部 ， 国 数 名 add_args 被 赋值 给 参数 func，5 和 9 分 
别 赋 值 给 arg1 和 arg2。 程 序 最 后 执行 : 


add_args(5, 9) 
同样 可 以 在 此 用 上 *args (位 置 参数 收集 ) 和 **kwargs (关键 字 参 数 收 集 ) 的 技巧 。 
我 们 定义 一 个 测试 函数 ， 它 可 以 接受 任意 数量 的 位 置 参数 ， 使 用 sum() 函数 计算 它们 的 和 ， 
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并 返回 这 个 和 : 


>>> def sum args(*args): 
return sum(args) 


之 前 没有 提 到 sum() 函数 ， 它 是 Python 的 一 个 内 建 函 数 ， 用 来 计算 可 和 迭代 的 数值 〈 整 型 或 
者 浮 点 型 ) 参数 的 和 。 

下 面 再 定义 一 个 新 的 函数 run_with_positional_args() ,接收 一 个 函数 名 以 及 任意 数量 的 位 
置 参数 : 


>>> def run_with positional_args(func, *args): 
return func(*args) 


现在 直接 调用 它 : 

>>> run_with_positional_args(sum _args, 1, 2, 3, 4) 

10 
同样 可 以 把 函数 作为 列表 、 元 组 、 集 合 和 字典 的 元 素 。 函 数 名 是 不 可 变 的 ， 因 此 可 以 把 函 
数 用 作 字 典 的 键 。 


4.7.8 内 部 函数 
在 Python 中 ， 可 以 在 函数 中 定义 另外 一 个 函数 : 


>>> def outer(a, b): 
def inner(c, d): 
return c+d 
return inner(a, b) 
































>>> 
>>> outer(4, 7) 
11 


当 需 要 在 函数 内 部 多 次 执行 复杂 的 任务 时 ， 内 部 函数 是 非常 有 用 的 ， 从 而 避免 了 循环 和 代 
码 的 堆 双 重复。 对 于 这 样 一 个 字符 串 的 例子 ， 内 部 函数 的 作用 是 给 外 部 的 函数 增加 字符 串 
参数 : 
>>> def knights(saying): 
def inner(quote): 


return "We are the knights who say: '%s'" % quote 
return inner(saying) 











>>> knights('Ni!') 
"We are the knights who say: 'Ni!'" 


4.7.9 闭 包 


内 部 函数 可 以 看 作 一 个 闲 包 。 闭 包 是 一 个 可 以 由 另 一 个 函数 动态 生成 的 函数 ， 并 且 可 以 改 
变 和 存储 函数 外 创建 的 变量 的 值 。 























下 面 的 例子 以 之 前 的 knights() 为 基础 。 现 在 ， 调 用 新 的 函数 knight2()， 把 inner() 函数 
变 成 一 个 叫 inner2() 的 闭 包 。 可 以 看 出 有 以 下 不 同 点 。 





inner2() 直接 使 用 外 部 的 saying 参数 ， 而 不 是 通过 另外 一 个 参数 获取 。 
knights2() 返回 值 为 inner2 函数 ， 而 不 是 调用 它 。 








>>> def knights2(saying): 
def inner2(): 
return "We are the knights who say: '%s'" % saying 
return inner2 


inner2() 函数 可 以 得 到 saying 参数 的 值 并 且 记 录 下 来 。return inner2 这 一 行 返回 的 是 


inner2 函数 的 复制 (没有 直接 调 月 








外 部 变量 的 函数 。 





用 不 同 的 参数 调用 knights2() 两 次 : 


>>> 9a 


knights2('Duck') 
knights2('Hasenpfeffer') 


>>> b 


那么 a 和 b 会 是 什么 类 型 ? 


>>> type(a) 
<CLass 'function'> 
>>> type(b) 
<CLass 'function'> 


它们 是 函数 ， 同 时 也 是 闭 包 : 


>>> 9 
<function knights2.<locals>.inner2 at 0x10193e158> 
>>> b 
<function knights2.<locals>.inner2 at 0x10193ele0> 


如 果 调 用 它们 ， 它 们 会 记录 被 knights2 函数 创建 时 的 外 部 变量 saying: 


>>> a() 

"We are the knights who say: 'Duck'" 

>>> b() 

"We are the knights who say: 'Hasenpfeffer'" 


4.7.10 ”匿名 函数 :lambda() 函 数 
Python 中 ，lambda 函数 是 用 一 个 语句 表达 的 匿名 国 数 。 可 以 用 它 来 代替 小 的 国 数 。 
首先 ， 举 一 个 使 用 普通 国 数 的 例子 。 定 义 国 数 edit_story()， 参 数列 表 如 下 所 示 : 














words 


单词 列表 
遍历 列表 中 单词 的 函数 
>>> def edit_story(words, func): 


for word in words: 
print(func(word)) 





func 


日)。 所 以 它 就 是 一 个 闭 包 : 一 个 被 动态 创建 的 可 以 记录 
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现在 ， 需 要 一 个 单词 列表 和 一 个 人 壳 历 单词 的 函数 。 对 于 单词 ， 可 以 选择 我 的 猫 从 某 一 台阶 
上 掉 下 时 发 出 的 声音 


>>> stairs = ['thud', 'meow', 'thud', 'hiss'] 


对 于 函数 ， 它 要 将 每 个 单词 的 首 字母 变 为 大 写 ， 然 后 在 末尾 加 上 感叹 号 ,用 作 猎 画报 的 标 
题 非 常 完美 : 


>>> def enliven(word): # 让 这 些 单词 更 有 情感 
return word.capitalize() + "1 


混合 这 些 “ 配 料 ”: 


>>> edit_story(stairs, enliven) 
Thud! 
Meow! 
Thud! 
Hiss! 


最 后 ， 到 了 lambda。enliven() 函数 可 以 简洁 地 用 下 面 的 一 个 lambda 代替 : 


>>> 

>>> edit_ story(stairs, lambda word: word.capitalize() + '!') 
Thud! 

Meow! 

Thud! 

Hiss! 

>>> 


lambda 函数 接收 一 个 参数 word。 在 冒号 和 末尾 圆 括号 之 间 的 部 分 为 函数 的 定义 。 


通常 ， 使 用 实际 的 函数 (例如 entiven()) 会 比 使 用 lambda 更 清晰 明了 。 但 是 ， 当 需要 定 
义 很 多 小 的 函数 以 及 记 住 它们 的 名 字 时 ，lambda 会 非常 有 用 。 尤 其 是 在 图 形 用 户 界面 中 ， 
可 以 使 用 lambda 来 定义 回调 汐 数 。 请 参见 附录 A 中 的 例子 。 


4.8 生成 器 


生成 器 是 用 来 创建 Python 序列 的 一 个 对 象 。 使 用 它 可 以 迭代 庞大 的 序列 ， 且 不 需要 在 内 
存 中 创建 和 存储 整个 序列 。 通 常 ， 生 成 器 是 为 欠 代 器 产生 数据 的 。 回 想起 来 ， 我 们 已 经 在 
之 前 的 例子 中 使 用 过 其 中 一 个 ， 即 range()， 来 产生 一 系列 整数 。range() 在 Python 2 中 
返回 一 个 列表 ， 这 也 限制 了 它 要 进入 内 存 空 < 间 。Python 2 中 同样 存在 的 生成 器 xrange() 在 
Python 3 中 成 为 标准 的 range() 生成 器 。 这 个 例子 累加 从 1 到 100 的 整数 : 


>>> Sum(range(1，101)) 
5050 


每 次 迭代 生成 器 时 ， 它 会 记录 上 一 次 调用 的 位 置 ， 并且 返回 下 一 个 值 。 这 一 点 和 普通 的 函 
数 是 不 一 样 的 ， 一 般 函 数 都 不 记录 前 一 次 调用 ， 而 且 都 会 在 函数 的 第 一 行 开 始 执 行 。 

如 果 你 想 创建 一 个 比较 大 的 序列 ， 使 用 生成 器 推导 的 代码 会 很 长 ， 这 时 可 以 尝试 写 一 个 
生成 器 函数 。 生 成 器 了 国 数 和 普通 函数 类 似 ， 但 是 它 的 返回 值 使 用 yield 语句 声明 而 不 是 




















































































































` 面 编写 我 们 自己 的 range() 函数 版 本 : 


>>> def my_range(first=0, last=10, step=1): 
number = first 
while number < last: 
yield number 
number += step 


return。 














这 是 一 个 普通 的 函数 : 


>>> my_range 
<function my_range at 0x10193e268> 


并 且 它 返回 的 是 一 个 生成 器 对 象 ; 


>>> ranger = my_range(1，5) 
>>> ranger 
<generator object my_range at 0x101a0a168> 


可 以 对 这 个 生成 器 对 象 进行 迭代 : 


>>> for x in ranger: 
print(x) 





NDDPA.. 


4.9 装饰 器 

有 时 你 需要 在 不 改变 源 代码 的 情况 下 修改 已 经 存在 的 函数 。 常 见 的 例子 是 增加 一 名 调试 声 
明 ， 以 查看 传人 的 参数 。 

装饰 器 实质 上 是 一 个 函数 。 它 把 一 个 函数 作为 输入 并 且 返 回 另 外 一 个 函数 。 在 装饰 器 中 ， 
通常 使 用 下 面 这 些 Python 技巧 : 

。 *args 和 **kwargs 

。 闭 包 

。 作为 参数 的 函数 

函数 document_it() 定义 了 一 个 装饰 器 ， 会 实现 如 下 功能 : 

。 打印 输出 函数 的 名 字 和 参数 的 值 

。 执行 含有 参数 的 函数 

。 打印 输出 结果 
。 返回 修改 后 的 函数 
看 下 面 的 代码 : 


>>> def document_it(func): 
def new_function(*args, **kwargs): 
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print('Running function:', func._ name_ ) 
print('Positional arguments:', args) 
print('Keyword arguments:', kwargs) 
result = func(*args, **kwargs) 
print('Result:', result) 
return result 

return new_function 


无 论 传 入 document_it() 的 函数 func 是 什么 ， 装 饰 器 都 会 返回 一 个 新 的 函数 ， 其 中 包含 
国 数 document_it() 增加 的 额外 语句 。 实 际 上 ， 装 饰 器 并 不 需要 执行 函数 func 中 的 代 
码 ， 只 是 在 结束 前 函数 document_it() 调用 函数 func 以 便 得 到 func 的 返回 结果 和 附加 代 
码 的 结果 。 

那么 ， 如 何 使 用 装饰 器 ? 当然 ， 可 以 通过 人 工 赋值 : 


>>> def add_ints(a, b): 
return a + b 








>>> add_ints(3，5) 

8 

>>> cooler_add_ints = document_it(add_ints) # 人 工 对 装饰 器 赋值 
>>> cooler_add_ints(3, 5) 

Running function: add_ints 

Postitional arguments: (3, 5) 

Keyword arguments: {} 

Result: 8 

8 


作为 对 前 面 人 工装 饰 器 赋值 的 替代 ， 可 以 直接 在 要 装饰 的 函数 前 添加 装饰 器 名 字 


@decorator_name.: 





>>> @document it 
. def add ints(a, b): 
return a + b 


>>> add_ints(3，5) 

Start function add_ints 
Positional arguments: (3, 5) 
Keyword arguments: {} 
Result: 8 

8 


同样 一 个 函数 可 以 有 多 个 装饰 器 。 下 面 ， 我 们 写 一 个 对 结果 求 平方 的 装饰 器 square_it(): 


>>> def square_it(func): 
def new_function(*args, **kwargs): 
result = func(*args, **kwargs) 
return result * result 
return new_function 








靠近 函数 定义 (def 上 面 ) 的 装饰 器 最 先 执 行 ， 然 后 依次 执行 上 面 的 。 任 何 顺序 都 会 得 到 
相同 的 最 终结 果 。 下 面 的 例子 中 会 看 到 中 间 步 又 的 变化 : 





























>>> @document_it 
. @square_ it 
. def add ints(a, b): 
returna+b 


>>> add_ints(3, 5) 

Running function: new_function 
Positional arguments: (3, 5) 
Keyword arguments: {} 

Result: 64 

64 


交换 两 个 装饰 器 的 顺序 


>>> @square_it 
. @document_it 
. def add ints(a, b): 
returna+b 


>>> add_ints(3, 5) 

Running function: add_ints 
Positional arguments: (3, 5) 
Keyword arguments: {} 
Result: 8 

64 


4.10 命名 空间 和 作用 域 


一 个 名 称 在 不 同 的 使 用 情况 下 可 能 指 代 不 同 的 事物 。Python 程序 有 各 种 各 样 的 命名 
间 ， 它 指 的 是 在 该 程序 段 内 一 个 特定 的 名 称 是 独一无二 的 ， 它 和 其 他 同名 的 命名 空间 
是 无 关 的 。 

一 个 函数 定义 自己 的 命名 空间 。 如 果 在 主 程序 (main) 中 定义 一 个 变量 x， 在 另外 一 个 
函数 中 也 定义 X 变量， 两 者 指 代 的 是 不 同 的 变量 。 但 是 ， 天 下 也 没有 完全 绝对 的 事情 ， 需 
要 的 话 ， 可 以 通过 多 种 方式 获取 其 他 命名 空间 的 名 称 。 
每 个 程序 的 主要 部 分 定义 了 全 局 命名 空间 。 因 此 ， 在 这 个 命名 空间 的 变量 是 全 局 变 
你 可 以 在 一 个 国 数 内 得 到 某 个 全 局 变量 的 值 : 


>>> animal = 'fruitbat' 
>>> def print_global(): 
print('inside print_global:', animal) 




















二 








o 














中 | 











>>> print('at the top level:', animal) 
at the top level: fruitbat 

>>> print_global() 

inside print_global: fruitbat 


但 是 ， 如 果 想 在 函数 中 得 到 一 个 全 局 变量 的 值 并 且 改 变 它 ， 会 报错 : 


>>> def change_and_print_global(): 
print('inside change_and_print_global:', animal) 
animal = 'wombat' 
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print('after the change:', animal) 


>>> change_and_print_global() 
Traceback (most recent call Last) : 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 2, in change_and_report_ it 
UnboundLocalError: local variable 'animal' referenced before assignment 


实际 上 ， 你 改变 的 另外 一 个 同样 被 命名 为 animal 的 变量 ， 只 不 过 这 个 变量 在 函数 内 部 : 


>>> def change_local(): 
animal = 'wombat' 
print('inside change_local:', animal, id(animal)) 








>>> change_local() 

inside change_local: wombat 4330406160 
>>> animal 

'fruitbat' 

>>> id(animal) 

4330390832 


这 里 发 生 了 什么 ? 在 函数 第 一 行将 字符 串 fruitbat 赋值 给 全 局 变量 animal。 函 数 change_ 
local() 也 有 一 个 叫 作 animal 的 变量 。 不 同 的 是 ， 它 在 自己 的 局 部 命名 空间 。 


我 们 使 用 Python 内 秽 函 数 id() 打印 输出 每 个 对 象 的 唯一 的 ID 值 ， 证 明 在 函数 change_ 
local() 中 的 变量 animal 和 主 程序 中 的 animal 不 是 同一 个 。 


为 了 读 取 全 局 变量 而 不 是 函数 中 的 局 部 变量 ， 需 要 在 变量 前 面 显 式 地 加 关键 字 global (也 
正 是 《Python 之 禅 》 中 的 一 句 话 : 明了 胜 于 隐 上 星 ) : 


>>> animal = 'fruitbat' 
>>> def change_and_print_global(): 
5 global animal 
animal = 'wombat' 
print('inside change_and_print_global:', animal) 






































>>> animal 

'fruitbat' 

>>> change_and_print_global() 

inside change_and_print_global: wombat 
>>> animal 

'wombat' 


如 果 在 函数 中 不 声明 关键 字 global，Python 会 使 用 局 部 命名 空间 ， 同 时 变量 也 是 局 部 的 。 
函数 执行 后 回 到 原来 的 命名 空间 。 


Python 提供 了 两 个 获取 命名 空间 内 容 的 函数 


。 locals() 返回 一 个 局 部 命名 空间 内 容 的 字典 ， 
。 globals() 返回 一 个 全 局 命名 空间 内 容 的 字典 。 


下 面 是 它们 的 实例 : 


>>> animal = 'fruitbat' 
>>> def change_local(): 
































animal = 'wombat'  # 局 部 变量 
print("LocaLs:' ,LocaLs()) 


>>> animal 

"fruitbat 

>>> change_local() 

locals: {'animal':'wombat'} 

>>> print('globals:'，globals()) # 和 表示 时 格式 稍微 发 生变 化 
globals:{'animal': 'fruitbat', 


'__doc _': None, 

'change_local': <function change_ it at 0x1006c0170>， 
'__package __': None, 

'_ name _': '__main  ，， 

'__loader_ ': <class '_frozen importlib.BuiltinImporter'>, 
'__builtins _': <module 'builtins'>} 

>>> animal 

"fruitbat 


地 


函数 change_local() 的 局 部 命名 空间 只 含有 局 部 变量 animal。 爹 局 命名 空间 含有 爹 局 变量 
animal 以 及 其 他 一 些 东西 。 


名 称 中 -和 _ 的 用 法 

以 两 个 下 划 线 _ 开头 和 结束 的 名 称 都 是 Python 的 保留 用 法 。 因 此 ， 在 自 定 义 的 变量 中 不 
能 使 用 它们 。 选 择 这 种 命名 模式 是 芬 虑 到 开发 者 一 般 是 不 会 选择 它们 作为 自己 的 变量 的 。 
例如 ， 一 个 国 数 的 名 称 是 系统 变量 function._name _， 它 的 文档 字符 串 是 function._ 


doc 



































>>> def amazing(): 
'''This is the amazing function. 
Want to see it again?'"' 
print('This function is named:', amazing. name ) 
print('And its docstring is:', amazing._ doc ) 


>>> amazing() 
This function is named: amazing 


And its docstring is: This is the amazing function. 
Want to see it again? 


如 同 之 前 9tobals 的 输出 结果 所 示 ， 主 程序 被 赋值 特殊 的 名 字 _main_。 


4.11 使 用 try 和 except 处 理 错误 


要 么 做 ， 要么 不 做 ,没有 尝试 这 回 事 。) 





尤 达 (Yoda ) 


在 一 些 编程 语言 中 ， 错 误 是 通过 特殊 的 函数 返回 值 指 出 的 ， 而 Python 使 用 异常 ， 它 是 一 段 























注 3:“Do, or do not. There is no try.” 科 幻 电影 《星球 大 战 》 中 绝地 大 师 尤 达 Yoda 的 台词 。 一 一 译 者 注 
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只 有 错误 发 生 时 执行 的 代码 。 

之 前 已 经 接触 到 一 些 有 关 错 误 的 例子 ， 例 如 读 取 列表 或 者 元 组 的 越界 位 置 或 者 字典 中 不 存 
在 的 键 。 所 以 ， 当 你 执行 可 能 出 错 的 代码 时 ， 需 要 适当 的 异常 处 理 程序 用 于 阻止 六 在 的 错 
误 发 生 。 

在 异常 可 能 发 生 的 地 方 添加 异常 处 理 程 序 ， 对 于 用 户 明 确 错误 是 一 种 好 方法 。 即 使 不 会 及 
时 解决 问题 ， 至 少 会 记录 运行 环境 并 且 停 止 程序 执行 。 如 果 发 生 在 某 些 函 数 中 的 异常 不 能 
被 立刻 捕捉 ， 它 会 持续 ， 直 到 被 某 个 调用 函数 的 异常 处 理 程序 所 捕捉 。 在 你 不 能 提供 自己 
的 异常 捕获 代码 时 ，Python 会 输出 错误 消息 和 关于 错误 发 生 处 的 信息 ， 然 后 终止 程序 ， 例 
如 下 面 的 代码 段 : 



























































>>> short_list = [1, 2, 3] 

>>> position = 5 

>>> short_list[position] 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

IndexError: list index out of range 














与 其 让 错误 随机 产生 ， 不 如 使 用 try 和 except 提供 错误 处 理 程序 : 














>>> short_list = [1, 2, 3] 
>>> position = 5 
>>> try: 
short_list[position] 
. except: 
print('Need a position between 0 and', len(short list)-1, ' but got', 
position) 


Need a position between 0 and 2 but got 5 





在 try 中 的 代码 块 会 被 执行 。 如 果 存 在 错误 ， 就 会 抛 出 异常 ， 然 后 执行 except 中 的 代码 ， 
否则 ， 跳 过 except 块 代码 。 

像 前 面 那样 指定 一 个 无 参数 的 except 适用 于 任何 异常 类 型 。 如 果 可 能 发 生 多 种 类 型 的 异 
常 ， 最 好 是 分 开 进 行 异 常 处 理 。 当 然 ， 没 人 强迫 你 这 么 做 ， 你 可 以 使 一 个 except 去 捕捉 所 
有 的 异常 ， 但 是 这 样 的 处 理 方式 会 比较 泛 化 〈 类 似 于 直接 输出 发 生 了 一 个 错误 )。 当 然 也 
可 以 使 用 任意 数量 的 异常 处 理 程序 。 

有 时 需要 除了 异常 类 型 以 外 其 他 的 异常 细节 ， 可 以 使 用 下 面 的 格式 获取 整个 异常 对 象 : 




























































































except exceptiontype as name 





下 面 的 例子 首先 会 寻找 是 否 有 IndexError， 因 为 它 是 由 索引 一 个 序列 的 非法 位 置 抛 出 的 异 
常 类 型 。 将 一 个 IndexError 异常 赋 给 变量 err， 把 其 他 的 异常 赋 给 变量 other。 示 例 中 会 
输出 所 有 存储 在 other 中 的 该 对 象 的 异常 。 





>>> short_list = [1, 2, 3] 
>>> while True: 
value = input('Position [q to quit]? ') 
if value == 'q' 
break 





输入 


前 面 





try: 


position = int(value) 
print(short_list[position]) 


except 


IndexError as err: 


print('Bad index:', position) 


except 


Exception as other: 


print('Something else broke:', other) 


Position [q to 
2 

Position [q to 
1 

Position [q to 
3 

Position [q to 
Bad index: 3 
Position [q to 
3 

Position [q to 
Something else 
Position [q to 





quit]? 1 
quit]? 0 
quit]? 2 
quit]? 3 
quit]? 2 
quit]? two 


broke: invalid literal for int() with base 10: 'two' 
quit]? q 


3 会 抛 出 异常 IndexError; 输入 two 会 使 函数 int() 抛 出 异常 ， 被 第 二 个 except 所 捕获 。 


4.12 编写 自己 的 异常 




















节 讨 论 了 异常 处 理 ， 但 是 其 中 讲 到 的 所 有 异常 例如 IndexError) 都 是 在 Python 或 
者 它 的 标准 库 中 提前 定义 好 的 。 根 据 自 己 的 目的 可 以 使 用 任意 的 异常 类 型 ， 同 时 也 可 以 自 
己 定义 异常 类 型 ， 用 来 处 理 程序 中 可 能 会 出 现 的 特殊 情况 。 


熟悉 


MYDS , 








这 里 需要 定义 一 个 类 的 新 对 象 ， 这 会 在 第 6 章 深入 说 明 。 如 果 你 对 类 不 是 很 





可 以 学 完 后 面 的 部 分 再 返回 这 一 节 。 





一 个 异常 是 一 个 类 ， 即 类 Exception 的 一 个 子 类 。 现 在 编写 异常 UppercaseException， 在 
一 个 字符 串 中 磁 到 大 写字 母 会 被 抛 出 。 


>>> class UppercaseException(Exception): 


pass 


>>> words = ['eeenie', 'meenie', 'miny', 'MO'] 
>>> for word in words: 
if word.isupper(): 
raise UppercaseException(word) 


Traceback (most recent call last): 
File "<stdin>", line 3, in <module> 
__main__.UppercaseException: MO 


即使 没有 定义 UppercaseException 的 行为 (注意 到 只 使 用 pass)， 也 可 以 通过 继承 其 父 类 
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Exception 在 抛 出 异常 时 输出 错误 提示 。 


你 当然 能 够 访问 异常 对 象 本 身 ， 并 且 输 出 它 : 


>>> try: 
raise OopsException('panic') 
. except OopsException as exc: 
print(exc) 


4.13 


() 将 7 赋值 
guess_me 小 于 7 输出 'too low'; 
(2) 将 7 赋值 给 变 

和 guess_me 


止 循环 ， 如 果 大 于 则 输出 'oops'， 


练习 


给 变量 guess_me， 

















量 guess_me， 再 将 1 赋值 给 变 





(3) 
(4) 
(5) 


使 用 列表 推导 生成 0~9 
使 用 字典 推导 创建 字典 squares， 
为 对 应 的 值 。 


把 0~9 





(6) 
(7) 














(9) 定义 一 个 生成 器 函数 get_odds 
三 个 值 。 
(10) 定义 一 个 装饰 器 


然后 写 一 段 条 件 判 断 (if、else 和 elif) 的 代码 : 如果 
; 大 于 7 则 输出 'too high'，; 


如 果 start 小 于 guess_me， 输 出 
然后 终止 循环 。 
使 用 for 循环 输出 列表 [3，2，1，9] 的 值 。 
(range(10)) 的 偶数 列表 。 
(range(10) ) 


test: 当 一 个 函数 被 调用 时 输出 

















等 于 7 则 输出 'just right'。 
变量 start。 写 一 段 while 循环 代码 ， 比 较 start 
too low; 如 果 等 于 则 输出 'found it!' 并 终 
在 每 次 循环 结束 时 自 增 start。 





的 整数 作为 键 ， 每 个 键 的 平方 作 


使 用 集合 推导 创建 集合 odd， 包 含 0~9 (range(10)) 的 奇数 。 
使 用 生成 器 推导 返回 字符 串 'Got ' 和 0~9 内 的 一 个 整数 ， 使 用 for 循环 进行 迭代 。 
(8) 定义 函数 good: 返回 列表 ['Harry', 'Ron'， 
返回 0~9 内 的 奇数 。 使 用 for 循环 查找 并 输出 返 


'Hermione' ]。 








回 的 第 





'start' ， 当 函数 结束 时 输出 'end'。 














(11) 定义 一 个 异常 00psException , 
(12) 使 用 国 


编写 代码 
数 zip() 创建 字典 movies: 








上 捉 该 异常 ， 并 输出 'Caught an oops '。 








匹配 两 个 列表 titles = ['Creature of Habit', 
'Crewel Fate'] 和 plots = ['A nun turns into a monster' 


,，'A haunted yarn shop']。 
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Python 盒子 ; 模块 、 包 和 程序 








在 自 底 向 上 的 学 习 过 程 中 ， 我们 已 经 学 完 内 置 的 数据 类 型 ， 以 及 构建 较 大 的 数据 和 代码 结 
构 。 本 章 落 到 实质 问题 ， 学 习 如 何 写 出 实用 的 大 型 Python 程序 。 


5.1 独立 的 程序 


到 目前 为 止 ， 我 们 已 经 学 会 在 Python 的 交互 式 解 释 器 中 编写 和 运行 类 似 下 面 的 代码 : 


>>> print("This interactive snippet works.") 
This interactive snippet works. 


现在 编写 你 的 第 一 个 独立 程序 。 在 你 的 计算 机 中 ， 创 建 一 个 文件 testl.py， 包 含 下 面 的 单行 
Python 代码 : 

















print("This standalone program works!") 
注意 ， 代 码 中 没有 >>> 提示 符 ， 只 有 一 行 Python 代码 ， 而 且 要 保证 在 print 之 前 没有 缩 进 。 
如 果 要 在 文本 终端 或 者 终端 窗口 运行 Python， 需要 键入 Python 程序 名 ， 后 面 跟 上 程序 的 
文件 名 : 

$ python test1.py 

This standaLone program works! 
尔 可 以 把 在 本 书 中 已 经 看 到 的 终端 可 交互 的 代码 片段 保存 到 文件 中 ， 然 后 直 
接 和 运行。 如果 剪 切 或 者 粘贴 ， 不 要 忘记 删除 >>> 提示 符 和 ... (包括 最 后 的 
空格 )。 
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5.2 命令 行 参数 
在 你 的 计算 机 中 ， 创 建文 件 test2.py， 包 含 下 面 两 行 ; 


import sys 
print('Program arguments:',sys.argv) 


现在 ， 使 用 Python 运行 这 段 程序 。 下 面 是 在 Linux 或 者 Mac OS X 系统 的 标准 shell 程序 下 
的 运行 结果 : 

















$ python test2.py 

Program arguments: ['test2.py'] 

$ python test2.py tra La la 

Program arguments: ['test2.py'，'tra'，'La'，'La'] 


5.3 ”模块 和 import 语 名 
继续 进入 下 一 个 阶段 : 在 多 个 文件 之 间 创 建 和 使 用 Python 代码 。 一 个 模块 仅仅 是 Python 
代码 的 一 个 文件 。 


本 书 的 内 容 按 照 这 样 的 层次 组 织 ， 单词 、 句 子 、 段 落 以 及 章 。 否 则 ， 超 过 一 两 页 后 就 没有 
很 好 的 可 读 性 了 。 代 码 也 有 类 似 的 自 底 向 上 的 组 织 层次 : 数据 类 型 类 似 于 单词 ， 语 名 类似 
于 句子 ， 函 数 类 似 于 段落 ， 模 块 类 似 于 章 。 以 此 类 推 ， 当 我 说 某 个 内 容 会 在 第 8 章 中 说 明 
时 ， 就 像 是 在 其 他 模块 中 引用 代码 。 


引用 其 他 模块 的 代码 时 使 用 import 语句 ， 被 引用 模块 中 的 代码 和 变量 对 该 程序 可 


5.3.1 导入 模块 

import 语句 最 简单 的 用 法 是 import 模块 ， 模 块 是 不 带 .py 扩展 的 另外 一 个 Python 文件 的 
文件 名 。 现 在 来 模拟 一 个 气象 站 ， 并 输出 天 气 预报 。 其 中 一 个 主 程序 输出 报告 ， 一 个 单独 
的 具有 单个 函数 的 模块 返回 天 气 的 描述 。 

下 面 是 主 程序 (命名 为 weatherman.py) : 


import report 





















































description = report.get description() 
print("Today's weather:", description) 


以 下 是 天 气 模块 的 代码 (report.py) : 
def get_description(): # 看 到 下 面 的 文档 字符 串 了 吗 ? 


""Return random weather, just like the pros""" 

from random import choice 

possibilities = ['rain', 'snow', 'sleet', 'fog', 'sun', 'who knows'] 
return choice(possibilities) 


如 果 上 述 两 个 文件 在 同一 个 目录 下 ， 通 过 Python 运行 主 程序 weatherman.py， 会 引用 
report 模块 ， 执 行 函 数 Py 函数 get_description() 从 字符 串 列表 中 返回 


























一 个 随机 结果 。 下 面 就 是 主 程序 可 能 返回 和 输出 的 结果 : 


$ python weatherman.py 
Today's weather: who knows 
$ python weatherman.py 
Today's weather: sun 

$ python weatherman.py 
Today's weather: sleet 


我 们 在 两 个 不 同 的 地 方 使 用 了 import: 


。 主 程序 weatherman.py 导入 模块 report; 
。 在 模块 文件 report.py 中 ， 国 数 get_description() 从 Python 标准 模块 random 导入 函数 


choice, 


同样 ， 我 们 以 两 种 不 同 的 方式 使 用 了 import: 


。 主 程序 调 用 import report， 然 后 运行 report.get_description(); 
。 report.py 中 的 get_description() 图 数 调 用 from random import choice， 然 后 运行 


choice(possibilities), 


第 一 种 情况 下 ， 我 们 导入 了 整个 report 模块 ， 但 是 需要 把 report. 作为 get_description() 
的 前 级 。 在 这 个 import 语句 之 后 ， 只 要 在 名 称 前 加 report.，report.py 的 所 有 内 容 (代码 
和 变量 ) 就 会 对 主 程序 可 见 。 通 过 模块 名 称 限定 模块 的 内 容 ， 可 以 避免 命名 冲突 。 其 他 模 
块 可 能 也 有 函数 get_description()， 这 样 做 不 会 被 错误 地 调用 。 


第 二 种 情况 下 ， 所 有 代码 都 在 同一 个 函数 下 ， 并 且 没 有 其 他 名 为 choice 的 函数 ， 所 以 我 
们 直接 从 randon 模块 导入 函数 choice()。 我 们 也 可 以 编写 类 似 于 下 面 的 函数 ， 返 回 随机 
结果 : 
def get_description(): 

import random 

possibilities = ['rain', 'snow', 'sleet', fog', 'sun', 'who knows'] 

return random.choice(possibilities) 
同 编程 的 其 他 方面 一 样 ， 选 择 你 所 能 理解 的 最 清晰 的 风格 。 符 合 模块 规范 的 命名 (randon. 
choice) 更 安全 ， 但 输入 量 略 大 。 


这 些 get_description() 的 例子 介绍 了 各 种 各 样 的 导入 内 容 ， 但 没有 涉及 在 什么 地 方 进行 
导入 一 一 它们 都 在 函数 内 部 调用 import。 我 们 也 可 以 在 函数 外 部 导入 random: 


>>> import random 

>>> def get _ description(): 
possibilities = ['rain', 'snow', 'sleet', 'fog', 'sun', 'who knows'] 
return random.choice(possibilities) 




































































>>> get_description() 
"Who knows' 

>>> get_description() 
'rain' 


如 果 被 导入 的 代码 被 多 次 使 用 ， 就 应 该 考虑 在 函数 外 部 导入 ， 如果 被 导入 的 代码 使 用 有 
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限 ， 就 在 函数 内 部 导入 。 一 些 人 更 喜欢 把 所 有 的 import 都 放 在 文件 的 开头 ， 从 而 使 代码 之 
间 的 依赖 关系 清晰 。 两 种 方法 都 是 可 行 的。 


5.3.2 ”使 用 别名 导入 模块 


在 主 程序 weatherman.py 中 ， 我 们 调用 了 import report。 但 是 ， 如 果 存 在 同名 的 另 一 个 模 
块 或 者 你 想 使 用 更 短 更 好 记 的 名 字 ， 该 如 何 做 呢 ? 在 这 种 情况 下 ， 可 以 使 用 别名 wr 进行 
导入 : 

import report as wr 


description = wr.get description() 
print("Today's weather:", description) 


5.3.3 ”导入 模块 的 一 部 分 


在 Python 中 ， 可 以 导入 一 个 模块 的 若干 部 分 。 每 一 部 分 都 有 自己 的 原始 名 字 或 者 你 起 的 别 
名 。 首 先 ， 从 report 模块 中 用 原始 名 字 导 入 函数 get_description(): 
from report import get_description 


description = get description() 
print("Today's weather:", description) 


用 它 的 别名 do_it 导入 : 


from report import get description as do it 
description = do_it() 
print("Today's weather:", description) 


5.3.4 ”模块 搜索 路 径 


Python 会 在 什么 地 方 寻找 文件 来 导入 模块 ? 使 用 命名 为 path 变量 的 存储 在 标准 sys 模块 
下 的 一 系列 目录 名 和 ZIP 压缩 文件 。 你 可 以 读 取 和 修改 这 个 列表 。 下 面 是 在 我 的 Mac 上 
Python 3.3 的 sys.path 的 内 容 : 












































>>> import sys 
>>> for place in sys.path: 
print(place) 


/Library/Frameworks/Python.framework/Versions/3.3/lib/python33.zip 
/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3 
/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3/plat-darwin 
/Library/Frameworks/Python.framework/Versions/3.3/\lib/python3.3/lib-dynload 
/Library/Frameworks/Python.framework/Versions/3.3/\lib/python3.3/site-packages 


最 开始 的 空白 输出 行 是 空 字符 串 ''， 代 表 当 前 目录 。 如 果 空 字符 串 是 在 sys.path 的 开始 
位 置 ，Python 会 先 搜 索 当前 目录 : import report 会 寻找 文件 report.py。 


第 一 个 匹配 到 的 模块 会 先 被 使 用 ， 这 也 就 意味 着 如 果 你 在 标准 库 之 前 的 搜索 路 径 上 定义 一 
个 模块 random， 就 不 会 导入 标准 库 中 的 randon 模块 。 
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5.4 


包 


我 们 已 使 用 过 单行 代码 、 多 行 函数 、 独 立 程 序 以 及 同一 目录 下 的 多 个 模块 。 为 了 使 Python 











应 用 更 具 可 扩展 性 ， 你 可 以 把 多 个 模块 组 织 成 文件 层次 ， 称 之 为 包 。 


也 许 我 们 需要 两 种 类 型 的 天 气 预 报 : 一 种 是 次 日 的 ， 一 种 是 下 周 的 。 一 种 可 行 的 方式 是 新 








建 目录 sources， 在 该 目录 中 新 建 两 个 模块 daily.py 和 weekly.py。 每 一 个 模块 都 有 一 个 函数 


forecast。 每 天 的 版 本 返回 一 个 字符 串 ， 每 周 的 版 本 返回 包含 7 个 字符 串 的 列表 。 




















下 面 是 主 程序 和 两 个 模块 (函数 enumerate() 拆 分 一 个 列表 ， 并 对 列表 中 的 每 一 项 通过 for 
循环 增加 数字 下 标 )。 


主 程序 是 boxes/weather.py: 








from sources import daily, weekly 


print("Daily forecast:", daily.forecast()) 
print("Weekly forecast:") 
for number, outlook in enumerate(weekly.forecast(), 1): 


print(number, outlook) 


模块 1 是 boxes/sources/daily.py: 


def forecast(): 


"fake daily forecast' 
return 'like yesterday' 


模块 2 是 boxes/sources/weekly.py: 


def forecast(): 


"""Fake weekly forecast 
return ['snow', 'more snow', 'sleet', 
'freezing rain', 'rain', 'fog', 'hail'] 


还 需要 在 sources 目录 下 添加 一 个 文件 : init.py。 这 个 文件 可 以 是 空 的 ， 但 是 Python 需要 
它 ， 以 便 把 该 目录 作为 一 个 包 。 


运行 主 程序 weather.py: 


$ 


python weather.py 


Daily forecast: like yesterday 
Weekly forecast: 


1 


~IONm 上 ww 


5.5 


Python 的 一 个 显著 特点 是 具有 庞大 的 模块 标准 库 ， 这 些 模块 可 以 执行 很 多 有 用 的 任务 ， 并 


snow 
more snow 
sleet 
freezing rain 
rain 

fog 

hail 


Python 标准 库 
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且 和 核心 Python 语言 分 开 以 避免 腔 肿 。 当 我 们 开始 写 代 码 时 ， 首 先 要 检查 是 否 存 在 想 要 
的 标准 模块 。 在 标准 库 中 你 会 经 常 碰 到 一 些 “ 珍 宝 ”|! Python 同时 提供 了 模块 的 官网 文 
档 (http://docs.python.org/3/library) 以 及 使 用 指南 (https://docs.python.org/3.3/tutorial/stdlib. 
html)。Doug Hellmann 的 网 站 Python Module of the Week (http://pymotw.com/2/contents. 
html) 和 他 的 书 The Python Standard Library by Example 都 是 非常 有 帮助 的 指南 。 


接 下 来 的 几 童 会 着 重 介 绍 关 于 网 络 、 系 统 、 数 据 库 等 的 标准 模块 。 本 市 讨 论 一 些 常 用 的 标 
准 模块 。 


5.5.1 使 用 setdefauLt() 和 defauLtdtict() 处 理 缺 失 的 键 


读 取 字 典 中 不 存在 的 键 的 值 会 抛 出 异常 。 使 用 字典 函数 get() 返回 一 个 默认 值 会 避免 异常 
发 生 。 国 数 setdefault() 类 似 于 get(), 但 当 键 不 存在 时 它 会 在 字典 中 添加 一 项 : 


>>> periodic table = {'Hydrogen': 1, 'Helium': 2} 
>>> print(periodic table) 
{'Helium': 2, 'Hydrogen': 1} 


如 果 键 不 在 字典 中 ， 新 的 默认 值 会 被 添加 进去 : 


>>> carbon = periodic_ table.setdefault('Carbon', 12) 
>>> carbon 

12 

>>> periodic table 

{'Helium': 2, 'Carbon': 12, 'Hydrogen': 1} 


如 果 试 图 把 一 个 不 同 的 默认 值 赋 给 已 经 存在 的 键 ， 不 会 改变 原来 的 值 ， 仍 将 返回 初始 值 : 


>>> helium = periodic table.setdefault('Helium', 947) 
>>> helium 

2 

>>> periodic table 

{'Helium': 2, 'Carbon': 12, 'Hydrogen': 1} 


defaultdict() 也 有 同样 的 用 法 ， 但 是 在 创建 字典 时 ， 对 每 个 新 的 键 都 会 指定 默认 值 。 它 的 
参数 是 一 个 函数 。 在 本 例 中 ， 把 函数 int 作为 参数 传人 ， 会 按照 int() 调用 ， 返 回 整 数 0: 


>>> from collections import defaultdict 
>>> periodic table = defaultdict(int) 


现在 ,任何 缺失 的 值 将 被 赋 为 整数 9: 


>>> periodic table['Hydrogen'] = 1 

>>> periodic table['Lead'] 

0 

>>> periodic table 

defaultdict(<class 'int'>, {'Lead': 0, 'Hydrogen': 1}) 


国 数 defaultdict() 的 参数 是 一 个 函数 ， 它 返回 赋 给 缺失 键 的 值 。 在 下 面 的 例子 中 ，no_ 
idea() 在 需要 时 会 被 执行 ， 返 回 一 个 值 ; 
>>> from collections import defaultdict 


>>> 
>>> def no_idea(): 
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return “Huh? 


>>> bestiary = defaultdict(no_idea) 

>>> bestiary['A'] 'Abominable Snowman' 
>>> bestiary['B'] 'Basilisk' 

>>> bestiary['A'] 

'Abominable Snowman' 

>>> bestiary['B'] 

"BasiLisk' 

>>> bestiary['C'] 

‘Huh?" 


同样 ， 可 以 使 用 函数 int()、list() 或 者 dict() 返回 默认 空 的 值 : int() 返回 0，List() 


返回 空 列表 ([])，dict() 返回 空 字典 ( 们 )。 如 果 你 删 掉 该 函数 参数 ， 新 键 的 初始 值 会 被 
设置 为 None。 


顺便 提 一 下 ， 也 可 以 使 用 lambda 来 定义 你 的 默认 值 函 数 : 


>>> bestiary = defauLtdict(Lambda: 'Huh?') 
>>> bestiary['E'] 
'Huh?" 


使 用 int 是 一 种 定义 计数 器 的 方式 : 


>>> from collections import defaultdict 

>>> food_counter = defaultdict(int) 

>>> for food in ['spam', 'spam', 'eggs', 'spam']: 
food_counter[food] += 1 




















>>> for food, count in food_ counter.items(): 
print(food, count) 


eggs 1 

spam 3 
上 面 的 例子 中 ， 如 果 food_counter 已 经 是 一 个 普通 的 字典 而 不 是 defaultdict 默认 字典 ， 
那 每 次 试图 自 增 字典 元 素 food_counter[food] 值 时 ，Python 会 抛 出 一 个 异常 ， 因 为 我 们 没 
有 对 它 进行 初始 化 。 在 普通 字典 中 ， 需 要 做 额外 的 工作 ， 如 下 所 示 : 

>>> dict_ counter = {} 

>>> for food in ['spam', 'spam', 'eggs', 'spam']: 

if not food in dict _ counter: 


dict_counter[food] = 0 
dict counter[food] += 1 
































>>> for food, count in dict counter.items(): 
print(food, count) 


spam 3 


eggs 1 


5.5.2 ”使 用 Counter() 计 数 
说 起 计数 器 ， 标 准 库 有 一 个 计数 器 ， 它 可 以 胜任 之 前 或 者 更 多 示例 所 做 的 工作 : 
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>>> from collections import Counter 

>>> breakfast = ['spam', 'spam', 'eggs', 'spam'] 
>>> breakfast_counter = Counter(breakfast) 

>>> breakfast_counter 

Counter({'spam': 3, 'eggs': 1}) 


国 数 most_common() 以 降序 返回 所 有 元 素 ， 或 者 如 果 给 定 一 个 数字 ， 会 返回 该 数字 前 的 的 
元 素 : 


>>> breakfast_counter .most_common() 


[('spam', 3), ('eggs', 1)] 
>>> breakfast_counter .most_common(1) 


[('spam', 3)] 
也 可 以 组 合计 数 器 。 首 先 来 看 一 下 breakfast_counter: 


>>> breakfast_counter 
>>> Counter({'spam': 3, 'eggs': 1}) 


一 次 ， 新 建 一 个 列表 Lunch 和 一 个 计数 器 Lunch_counter: 


>>> Lunch = ['eggs', 'eggs', 'bacon'] 
>>> lunch_counter = Counter(Lunch) 
>>> lunch_counter 

Counter({'eggs': 2, 'bacon': 1}) 


一 种 组 合计 数 器 的 方式 是 使 用 +: 


>>> breakfast_counter + lunch_counter 
Counter({'spam': 3, 'eggs': 3, 'bacon': 1}) 


你 也 可 能 想到 ， 从 一 个 计数 器 去 掉 另 一 个 ， 可 以 使 用 -。 什 么 是 早餐 有 的 而 午餐 没有 的 呢 ? 


>>> breakfast_counter - lunch_counter 
Counter({'spam': 3}) 


那么 什么 又 是 午餐 有 的 而 早餐 没有 的 呢 ? 


>>> lunch counter - breakfast_counter 
Counter({'bacon': 1, 'eggs': 1}) 


H 第 4 章 中 的 集合 类 似 ， 可 以 使 用 交集 运算 符 8 得 到 二 者 共有 的 项 


>>> breakfast_counter & Lunch_counter 
Counter({f eggs': 1}) 


两 者 的 交集 通过 取 两 者 中 的 较 小 计数 ， 得 到 共同 元 素 'eggs' 。 这 合情合理 : 早餐 仅 提供 一 
个 鸡蛋 ， 因 此 也 是 共有 的 计数 。 
最 后 ， 使 用 并 集运 算 符 | 得 到 所 有 元 素 : 


>>> breakfast_counter | Lunch_counter 
Counter({'spam': 3, 'eggs': 2, 'bacon': 1}) 


'eggs' 又 是 两 者 共有 的 项 。 不 同 于 合并 ， 并 集 没有 把 计数 加 起 来 ， 而 是 取 其 中 较 大 的 值 。 









































5.5.3 ”使 用 有 序 字 暴 0rderedDict() 按 键 排序 


在 前 面 儿童 的 代码 示例 中 可 以 看 出 ， 一 个 字典 中 键 的 顺序 是 不 可 预知 的 : 你 可 以 按照 顺序 
添加 键 a、b 和 <c, 但 函数 keys() 可 能 返回 c、a 和 b。 下面 是 第 1 章 用 过 的 一 个 例子 : 


>>> quotes = { 
'Moe': 'A wise guy, huh?', 
'Larry': 'Ow!', 
'Curly': 'Nyuk nyuk!', 
有 } 
>>> for stooge in quotes: 
print(stooge) 














Larry 
Curly 
Moe 


有 序 字典 orderedptct() 记忆 字典 键 添加 的 顺序 ， 然 后 从 一 个 选 代 器 按照 相同 的 顺序 返 
回 。 试 着 用 元 组 ( 键 ， 值 ) 创建 一 个 有 序 字典 : 


>>> from collections import OrderedDict 
>>> quotes = OrderedDict([ 
('Moe', 'A wise guy, huh?'), 
('Larry', 'Ow!'), 
('Curly', 'Nyuk nyuk!'), 
]) 


>>> 

>>> for stooge in quotes: 
print(stooge) 

Moe 

Larry 

Curly 


5.5.4” 双 端 队列 : 栈 + 队 列 


deque 是 一 种 双 端 队列 ， 同 时 具有 栈 和 队列 的 特征 。 它 可 以 从 序列 的 任何 一 端 添 加 和 删除 
项 。 现 在 ， 我 们 从 一 个 词 的 两 端 扫 向 中 间 ， 判 断 是 否 为 回 文 。 国 数 popleft() 去 掉 最 左边 
的 项 并 返回 该 项 ，pop() 去 掉 最 右边 的 项 并 返回 该 项 。 从 两 边 一 直 向 中 间 扫 描 「《， 只 要 两 端 
的 字符 匹配 ， 一 直 弹 出 直到 到 达 中 间 : 


>>> def palindrome(word): 
from collections import deque 
dq = deque(word) 
while len(dq) > 1: 
if dq.popleft() != dq.pop(): 
return False 
return True 




















>>> palindrome('a') 
True 
>>> palindrome('racecar') 
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True 

>>> palindrome('') 

True 

>>> palindrome('radar') 
True 

>>> palindrome('halibut') 
False 


这 里 把 判断 回 文 作为 双 端 队列 的 一 个 简单 说 明 。 如 果 想 要 写 一 个 快速 的 判断 回 文 的 程 
序 ， 只 需要 把 字符 串 反 转 和 原 字 符 串 进行 比较 。Python 没有 对 字符 串 进行 反 转 的 函数 
reverse()， 但 还 是 可 以 利用 反 向 切片 的 方式 进行 反 转 ， 如 下 所 示 : 


>>> def another_palindrome(word): 
return word == word[::-1] 



































>>> another_palindrome('radar') 
True 

>>> another_palindrome('halibut') 
False 


5.5.5 “使 用 itertootLs 迭 代 代 码 结构 


itertools (https://docs.python.org/3/library/itertools.html) 包含 特殊 用 途 的 运 代 器 函数 。 在 
for ... in 循环 中 调用 返 代 函数 ， 每 次 会 返回 一 项 ， 并 记 住 当 前 调用 的 状态 。 
即使 chain() 的 参数 只 是 单个 迭代 对 象 ， 它 也 会 使 用 参数 进行 迭代 : 

>>> import itertools 


>>> for item in itertools.chain([1, 2], ['a', 'b']): 
print(item) 








TO 请 。 


cycle() 是 一 个 在 它 的 参数 之 间 循 环 的 无 限 迭 代 器 : 


>>> import itertools 
>>> for item in itertools.cycle([1, 2]): 
print(item) 


.DPADNDPA. 


accumulate() 计算 累积 的 值 。 默 认 的 话 ， 它 计算 的 是 累加 和 : 


>>> import itertools 
>>> for item in itertools.accumulate([1, 2, 3, 4]): 
print(item) 
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PAWP.: 


0 


你 可 以 把 一 个 函数 作为 accumulate() 的 第 二 个 参数 ， 代 替 默 认 的 加 法 函数 。 这 个 参数 函数 
应 该 接受 两 个 参数 ， 返 回 单个 结果 。 下 面 的 例子 计算 的 是 乘积 : 
>>> import itertools 


>>> def multiply(a, b): 
returna*b 




















>>> for item in itertools.accumulate([1, 2, 3, 4], multiply): 
print(item) 


DoDP.: . 


4 


itertools 模块 有 很 多 其 他 的 函数 ， 有 一 些 可 以 用 在 需要 市 省 时 间 的 组 合 和 排列 问题 上 


5.5.6 ”使 用 pprint() 友 好 输出 


我 们 见 到 的 所 有 示例 都 用 print() (或 者 在 交互 式 解 释 器 中 用 变量 名 ) 打印 输出 。 有 时 输 
出 结果 的 可 读 性 较 差 。 我 们 需要 一 个 友好 输出 函数 ， 比 如 pprint(): 


>>> from pprint import pprint 
>>> quotes = OrderedDict([ 
('Moe', 'A wise guy, huh?'), 
('Larry', 'Ow!'), 
('Curly', 'Nyuk nyuk!'), 
]) 









































>>> 


普通 的 print() 直接 列 出 所 有 结果 : 

>>> print(quotes) 

OrderedDict([('Moe', 'A wise guy, huh?'), ('Larry', 'Ow!'), ('Curly', 'Nyuk nyuk!')]) 
但 是 ，pprint() 尽量 排列 输出 元 素 从 而 增加 可 读 性 : 


>>> pprint(quotes) 

{'Moe': 'A wise guy, huh?', 
'Larry': 'Ow!', 
'Curly': 'Nyuk nyuk!'} 


5.6 获取 更 多 Python 代码 


有 时 标准 库 没 有 你 需要 的 代码 ， 或 者 不 能 很 好 地 满足 需求 。 有 很 多 开源 第 三 方 Python 软件 
供 参 基 ， 如 下 所 示 : 
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。 PyPi (http:/pypi.python.org， 也 称 为 Cheese Shop， 名 称 源 自 Monty Python ' 的 滑稽 短 剧 ) 
。 github (http://github.com/Python) 
。 readthedocs (https://readthedocs.org/ ) 


你 可 以 在 activestate (http://code.activestate.com/recipes/langs/python/) 找到 很 多 小 代码 
示例 。 


本 书 的 绝 大 部 分 代码 使 用 的 是 安装 在 你 电脑 中 的 标准 Python 程序 ， 包 括 所 有 内 置 函 数 和 标 
准 库 。 外 部 的 包 在 以 下 地 方 提 及 : 第 1 章 中 谈 到 的 requests， 具 体 细 市 在 9.1.3 市 ， 附 录 
D 里 面 提 及 第 三 方 Python 软件 的 安装 和 详细 的 开发 细 市 。 


5.7 练习 


(1) 创建 文件 zoo.py。 在 该 文件 中 定义 函数 hours()， 输 出 字符 串 '0pen 9-5 daily'。 然 后 
使 用 交互 式 解 释 器 导入 模块 zoo 并 调用 函数 hours()。 

(2) 在 交互 式 解释 器 中 ， 把 模块 zoo 作为 menagerie 导入 ， 然 后 调用 函数 hours()。 

(3) 依旧 在 解释 器 中 ， 直 接 从 模块 zoo 导入 函数 hours() 并 调用 。 

(4) 把 函数 hours() 作为 info 导入 ， 然 后 调用 它 。 

(5) 创建 字典 plain， 包 含 键 值 对 'a':1、'b':2 和 'c' :3， 然 后 输出 它 。 

(6) 创 建 有 序 字典 fancy: 键 值 对 和 练习 (5) 相同 ， 然 后 输出 它 。 输 出 顺序 和 plain 相 
同 吗 ? 

(7) 创建 默认 字典 dict_of_lists， 传人 参数 list。 给 dict_of_lists['a'] 赋值 'something 
for a'， 输 出 dict_of_Lists['a'] 的 值 。 
































注 1: Monty Python 是 英国 六 人 喜剧 团体 。 一 一 译 者 广 
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第 6 章 


对 象 和 类 





“对 象 并 不 神秘 ， 神 秘 的 是 你 的 眼睛 。 
一 一 Elizabeth Bowen 


“选取 一 个 对 象 ， 对 它 进 行 修改 ， 然 后 再 进行 一 些 其 他 的 修改 。 





Jasper Johns 


到 目前 为 止 ， 你 已 经 学 习 了 字符 串 、 字 和 典 之 类 的 数据 结构 ， 还 有 函数 、 模 块 之 类 的 代码 结 
构 。 本 章 将 学 习 如 何 使 用 自 定 义 的 数据 结构 : 对 象 。 


6.1 什么 是 对 象 


就 像 在 第 2 章 提 到 的 一 样 ，Python 里 的 所 有 数据 都 是 以 对 象形 式 存在 的 ， 无 论 是 简单 的 数 
字 类 型 还 是 复杂 的 代码 模块 。 然 而 ，Python 特殊 的 语法 形式 巧妙 地 将 实现 对 象 机 制 的 大 量 
细节 隐藏 了 起 来 。 输 入 num = 7 就 可 以 创建 一 个 值 为 7 的 整数 对 象 ， 并 且 将 这 个 对 象 赋值 
给 变量 num。 事 实 上 ， 在 Python 中 ， 只 有 当 你 想 要 创建 属于 自己 的 对 象 或 者 需要 修改 已 有 
对 象 的 行为 时 ， 才 需要 关注 对 象 的 内 部 实现 细节 。 在 本 章 ， 这 两 种 情况 都 会 涉及 。 

对 象 既 包含 数据 (变量 ， 更 习惯 称 之 为 特性 ，attribute) ， 也 包含 代码 〈 国 数 ， 也 称 为 方法 )。 
它 是 某 一 类 具体 事物 的 特殊 实例 。 例 如 ， 整 数 7 就 是 一 个 包含 了 加 法 、 乘 法 之 类 方法 的 对 
象 ， 这 些 方法 在 2.2 市 曾经 介绍 过 。 整 数 8 则 是 另 一 个 对 象 。 这 意味 着 在 Python 里 ，7 和 8 






































注 1:“No object is mysterious. The mystery is your eye.” 原 话 应 译 为 :没有 什么 是 神秘 的 ,神秘 的 是 你 的 眼睛 。 
本 书 作者 使 用 object 一 语 双 关 。 译 者 注 
注 2: “Take an object. Do something to it. Do somthing else to it.” 原 话 应 译 为 : 选取 一 件 事 物 , 对 它 进行 创作 ， 
对 它 进行 其 他 创作 。 本 书 作 者 使 用 object 一 语 双关 。 译 者 注 
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都 属于 一 个 公共 的 类 ， 我 们 称 之 为 整数 类 。 字 符 串 'cat' 和 "duck' 也 是 Python 对 象 ， 它 们 
都 包含 着 capitalize() 和 replace() 之 类 的 字符 串 方 法 ， 这 些 方法 之 前 也 都 见 到 过 。 

当 你 想 要 创建 一 个 别人 从 来 没有 创建 过 的 新 对 象 时 ， 首 先 必 须 定义 一 个 类 ， 用 以 指明 该 类 
型 的 对 象 所 包含 的 内 容 (特性 和 方法 )。 

可 以 把 对 象 想象 成 名 词 ， 那 么 方法 就 是 动词 。 对 象 代表 着 一 个 独立 的 事物 ， 它 的 方法 则 定 
义 了 它 是 如 何 与 其 他 事物 相互 作用 的 。 
与 模块 不 同 ， 你 可 以 同时 创建 许多 同类 的 对 象 ， 它 们 的 特性 值 可 能 各 不 相同 。 对 象 就 像 是 
包含 了 代码 的 超级 数据 结构 。 


6.2 ”使 用 class 定 义 类 


在 第 1 章 ， 我 把 对 象 比 作 塑料 盒 子 。 类 (class) 则 像 是 制作 盒子 用 的 模具 。 例 如 ，Python 
的 内 置 类 string 可 以 创建 像 'cat' 和 'duck' 这 样 的 字符 串 对 象 。Python 中 还 有 许多 用 来 
创建 其 他 标准 数据 类 型 的 类 ， 包 括 列 表 、 字 典 等 。 如 果 想 要 在 Python 中 创建 属于 自己 的 对 
象 ， 首 先 你 必须 用 关键 词 class 来 定义 一 个 类 。 先 来 看 一 个 简单 的 例子 。 


假设 你 想 要 定义 一 些 对 象 用 于 记录 联系 人 ， 每 个 对 象 对 应 一 个 人 。 首 先 需要 定义 Person 类 
作为 生产 对 象 的 模具 。 在 接 下 来 的 几 个 例子 中 ， 我 们 会 不 停 更 新 这 个 类 的 内 容 ， 从 最 简单 
的 开始 ， 直 到 它 成 为 一 个 可 以 实际 使 用 的 类 。 
首先 创建 的 是 最 简单 的 类 ， 即 一 个 没有 任何 内 容 的 空 类 : 

>>> class Person(): 

pass 

同 函 数 一 样 ， 用 pass 表示 这 个 类 是 一 个 空 类 。 上 面 这 种 定义 类 的 方法 已 经 是 最 简 形 式 ， 无 
法 再 省 略 。 你 可 以 通过 类 名 来 创建 对 象 ， 同 调用 国 数 一 样 : 


>>> Someone = Person() 


在 这 个 例子 中 ，Person() 创建 了 一 个 Person 类 的 对 象 ， 并 给 它 赋值 someone 这 个 名 字 。 但 
是 ， 由 于 我 们 的 Person 类 是 空 的 ， 所 以 由 它 创 建 的 对 象 someone 实际 上 什么 也 做 不 了 。 实 
际 编程 中 ， 你 永远 也 不 会 创建 这 样 一 个 没 用 的 类 ， 我 在 这 里 只 是 为 了 从 零 开始 引出 后 面 每 
一 步 的 内 容 。 

我 们 来 试 着 重新 定义 一 下 Person 类 。 这 一 次 ， 将 Python 中 特殊 的 对 象 初始 化 方法 一 
init_ 放 入 其 中 : 

>>> class Person(): 
def _ init (self): 
pass 

我 承认 _init_() 和 self 看 起 来 很 奇怪 ， 但 这 就 是 实际 的 Python 类 的 定义 形式 。__ 
init_() 是 Python 中 一 个 特殊 的 函数 名 ， 用 于 根据 类 的 定义 创建 实例 对 象 。 self 参数 指 





































































































注 3: 你 会 在 Python 中 见 到 许多 双 下 划 线 (double underscore) 的 名 字 。 一 些 懒 人 喜欢 将 其 简称 为 dunder， 
这 样 比较 节省 音节 。 

















向 了 这 个 正在 被 创建 的 对 象 本 身 。 


当 你 在 类 声明 里 定义 _init_() 方法 时 ， 第 一 个 参数 必须 为 seLf。 尽 管 self 并 不 是 一 个 
Python 保留 字 ， 但 它 很 常用 。 没 有 人 (包括 你 自己 ) 在 阅读 你 的 代码 时 需要 猜测 使 用 seLf 


的 意图 。 


尽管 我 们 添加 了 初始 化 方法 ， 但 用 这 个 Person 类 创建 的 对 象 仍然 什么 也 做 不 了 。 即 将 进行 
的 第 三 次 尝试 要 更 吸引 人 了 ， 你 将 学 习 如 何 创 建 一 个 简单 可 用 的 Python 对 象 。 这 一 次 ,会 
在 初始 化 方法 中 添加 name 参数 : 

>>> class Person(): 


def _ init (self, name): 
self.name = name 























>>> 


现在 ， 用 Person 类 创建 一 个 对 象 ， 为 name 特性 传递 一 个 字符 串 参 数 : 


>>> hunter = Person('Elmer Fudd ' ) 
上 面 这 短 短 的 一 行 代码 实际 做 了 以 下 工作 : 


。 查看 Person 类 的 定义 ; 

。 在 内 存 中 实例 化 (创建 ) 一 个 新 的 对 象 ， 

。 调用 对 象 的 _init 方法 ,将 这 个 新 创建 的 对 象 作为 seLf 传人 ,并 将 另 一 个 参数 ( "Etmer- 
Fudd' ) 作为 name 传 和 人; 

。 将 name 的 值 在 和 人 对象 ， 

。 返回 这 个 新 的 对 象 ， 

。 将 名 字 hunter 与 这 个 对 象 关 联 。 

这 个 新 对 象 与 任何 其 他 的 Python 对 象 一 样 。 你 可 以 把 它 当 作 列 表 、 元 组 、 字 典 或 集合 中 的 

元 素 ， 也 可 以 把 它 当 作 参 数 传递 给 函数 ， 或 者 把 它 做 为 函数 的 返回 结果 。 

我 们 刚刚 传 入 的 name 参数 此 时 又 在 哪儿 呢 ? 它 作为 对 象 的 特性 存储 在 了 对 象 里 。 可 以 直接 

对 它 进 行 读 写 操作 : 


>>> print('The mighty hunter: ', hunter.name) 
The mighty hunter: Elmer Fudd 


记 住 ， 在 Person 类 定义 的 内 部 ， 你 可 以 直接 通过 self.nanme 访问 name 特性 。 而 当 创 建 了 
一 个 实际 的 对 象 后 ， 例 如 这 里 的 hunter， 需 要 通过 hunter.name 来 访问 它 。 


在 类 的 定义 中 ，__init “并 不 是 必需 的 。 只 有 当 需 要 区 分 由 该 类 创建 的 不 同 对 象 时 ， 才 需 
要 指定 _init_ “方法 。 
6.3 继承 


在 你 编写 代码 解决 实际 问题 时 ， 经 常 能 找到 一 些 已 有 的 类 ， 它 们 能 够 实现 你 所 需 的 大 部 分 
功能 ， 但 不 是 全 部 。 这 时 该 怎么 办 ? 当然 ， 你 可 以 对 这 个 已 有 的 类 进行 修改 ， 但 这 人 么 做 很 
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容易 让 代码 变 得 更 加 复杂 ， 一 不 留神 就 可 能 会 破坏 原来 可 以 正常 工作 的 功能 。 

当然 ， 也 可 以 另起炉灶 重新 编写 一 个 类 : 复制 粘贴 原来 的 代码 再 融入 自己 的 新 代码 。 但 这 
意味 着 你 需要 维护 更 多 的 代码 。 同 时 ， 新 类 和 旧 类 中 实现 同样 功能 的 代码 被 分 隔 在 了 不 同 
的 地 方 (日 后 修改 时 需要 改动 多 处 )。 
更 好 的 解决 方法 是 利用 类 的 继承 : 从 已 有 类 中 衍生 出 新 的 类 ， 添 加 或 修改 部 分 功能 。 这 是 
代码 复 用 的 一 个 绝 佳 的 例子 。 使 用 继承 得 到 的 新 类 会 自动 获得 旧 类 中 的 所 有 方法 ， 而 不 需 
要 进行 任何 复制 。 

你 只 需要 在 新 类 里 面 定义 自己 额外 需要 的 方法 ,或 者 按照 需求 对 继承 的 方法 进行 修改 即 
可 。 修 改 得 到 的 新 方法 会 覆盖 原 有 的 方法 。 我 们 习惯 将 原始 的 类 称 为 父 类 、 超 类 或 基 类 ， 
将 新 的 类 称 作 和 孩子 类 、 子 类 或 衍生 类 。 这 些 术语 在 面向 对 象 的 编程 中 不 加 以 区 分 。 

现在 ， 我 们 来 试 试 继承 。 首 先 ， 定 义 一 个 空 类 Car。 然 后 ， 定 义 一 个 Car 的 子 类 Yugo。 定 
义 子 类 使 用 的 也 是 class 关键 词 ， 不 过 需要 把 父 类 的 名 字 放 在 子 类 名 字 后 面 的 括号 里 
(class Yugo(Car)): 






























































>>> class Car(): 
pass 


>>> class Yugo(Car): 
pass 


接着 ， 为 每 个 类 创建 一 个 实例 对 象 ; 


>>> give_me_a_car = Car() 
>>> give_me_a_yugo = Yugo() 


子 类 是 父 类 的 一 种 特殊 情况 ， 它 属于 父 类 。 在 面向 对 象 的 术语 里 ， 我 们 经 常 称 Yugo 是 一 
个 (is-a) Car。 对 象 give_me_a_yugo 是 Yugo 类 的 一 个 实例 ， 但 它 同时 继承 了 Car 能 做 到 的 
所 有 事情 。 当 然 ， 上 面 的 例子 中 Car 和 Yugo 就 像 潜艇 上 的 甲板 水 手 一 样 起 不 到 任何 实际 作 
用 。 我 们 来 更 新 一 下 类 的 定义 ， 让 它们 发 挥 点 儿 作用 ， 

>>> CLass Car(): 


def exclaim(self): 
print("I'm a Car!") 



































>>> class Yugo(Car): 
pass 





最 后 ， 为 每 一 个 类 各 创建 一 个 对 象 ， 并 调用 刚刚 声明 的 exclain 方法 : 


>>> give_me_a_car = Car() 
>>> give_me_a_yugo = Yugo() 
>>> give me _a_car.exclaim() 
I'ma Carl 

>>> give me _a_yugo.exclaim() 
I'ma Car! 


我 们 不 需要 进行 任何 特殊 的 操作 ，Yugo 就 自动 从 Car 那里 继承 了 exclaim() 方法。 但 事 
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实 上 ， 我 们 并 不 希望 Yugo 在 exlaim() 方法 里 宣称 它 是 一 个 Car， 这 可 能 会 造成 身份 危机 
(无 法 区 分 Car 和 Yugo) 。 让 我 们 来 看 看 怎么 解决 这 个 问题 。 


6.4 ”覆盖 方法 
就 像 上 面 的 例子 展示 的 一 样 ， 新 创建 的 子 类 会 自动 继承 父 类 的 所 有 信息 。 接 下 来 将 看 到 子 
类 如 何 替 代 一 一 更 习惯 说 徐 盖 (override) 一 一 父 类 的 方法 。Yugo 和 Car 一 定 存 在 着 某 些 区 
别 ， 不 然 的 话 ， 创 建 它 又 有 什么 意义 ? 试 着 改写 一 下 Yugo 中 exclaim() 方法 的 功能 : 

>>> class Car(): 


def exclaim(self): 
print("I'm a Car!") 











>>> class Yugo(Car): 
def exclaim(self): 
print("I'm a Yugo! Much like a Car, but more Yugo-ish.") 





现在 ， 为 每 个 类 创建 一 个 对 象 : 


>>> give_me_a_car = Car() 
>>> give me a_yugo = Yugo() 


看 看 它们 各 自 会 宣称 什么 ? 


>>> give me a _ car.exclaim() 

I'ma Carl 

>>> give_ me _a_yugo.exclaim() 

I'm a Yugo! Much like a Car, but more Yugo-ish. 


在 上 面 的 例子 中 ,我们 覆盖 了 父 类 的 exclaim() 方 法。 在 子 类 中 ， 可 以 覆盖 任何 父 类 的 方 
法 ， 包括 __init_()。 下 面 的 例子 使 用 了 之 前 创建 过 的 Person 类 。 我 们 来 创建 两 个 子 类 ， 
分 别 代表 医生 (MDPerson) 和 律师 (JDPerson) : 

>>> class Person(): 


def _ init (self, name): 
self.name = name 




















了 








>>> class MDPerson(Person): 
def _ init (self, name): 
self.name = "Doctor " + name 


>>> class JDPerson(Person): 
def _ init (self, name): 
self.name = name + ", Esquire" 





在 上 面 的 例子 中 ， 子 类 的 初始 化 方法 _init_() 接收 的 参数 和 父 类 Person 一 样 ， 但 存储 
到 对 象 内 部 name 特性 的 值 却 不 尽 相同 : 
>>> person = Person('Fudd') 


>>> doctor = MDPerson('Fudd') 
>>> lawyer = JDPerson('Fudd') 
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>>> print(person.name) 
Fudd 

>>> print(doctor .name) 
Doctor Fudd 

>>> print(Lawyer .name) 
Fudd, Esquire 


6.5 添加 新 方法 


子 类 还 可 以 添加 父 类 中 没有 的 方法 。 回 到 Car 类 和 Yugo 类 ， 我 们 给 Yugo 类 添加 一 个 新 的 
方法 need_a_push() 
>>> CLass Car(): 


def exclaim(self): 
print("I'm a Car!") 


>>> class Yugo(Car): 
def exclaim(self): 
print("I'm a Yugo! Much like a Car, but more Yugo-ish.") 
def need_a_push(self): 
print("A little help here?") 


接着 ,创建 一 个 Car 和 一 个 Yugo 对 象 : 


>>> give me_a_car = Car() 
>>> give me a _yugo = Yugo() 


Yugo 类 的 对 象 可 以 响应 need_a_push() 方法 : 


>>> give_me_a_yugo.need_a_push() 
A little help here? 


但 比 它 广义 的 Car 无 法 响应 该 方法 : 


>>> give me _a_car.need a push() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'Car' object has no attribute 'need_a_push' 


至 此 ，Yugo 终于 可 以 做 一 些 Car 做 不 到 的 事情 了 。 它 的 与 众 不 同 的 特征 开始 体现 了 出 来 。 


6.6 ”使 用 super 从 父 类 得 到 帮助 


我 们 已 经 知道 如 何在 子 类 中 覆盖 父 类 的 方法 ， 但 如 果 想 要 调用 父 类 的 方法 怎么 办 ? 
“哈哈 ! 终于 等 到 你 问 这 个 了 。”super() 站 出 来 说 道 。 下 面 的 例子 将 定义 一 个 新 的 类 
EmailPerson， 用 于 表示 有 电子 邮箱 的 Person。 首 先 ， 来 定义 熟悉 的 Person 类 : 

>>> class Person() : 


def _ init (self, name): 
self.name = name 


















































下 面 是 子 类 的 定义 。 注 意 ， 子 类 的 初始 化 方法 __init__() 中 添加 了 一 个 额外 的 email 
参数 : 
>>> CLass EmailPerson(Person): 
def _ init (self, name, email): 
super().__init (name) 
self.email = email 


在 子 类 中 定义 _init_() 方 法 时 ， 父 类 的 _init_() 方 法 会 被 覆盖 。 因 此 ， 在 子 类 中 ， 
父 类 的 初始 化 方法 并 不 会 被 自动 调用 ， 我 们 必须 显 式 调用 它 。 以 上 代码 实际 上 做 了 这 样 几 
件 事情 。 

。 通过 super() 方法 获取 了 父 类 Person 的 定义 。 

。 子 类 的 _init_() 调用 了 Person._init_() 方 法 。 它 会 自动 将 self 参数 传递 给 父 类 。 
因此 ， 你 只 需 传 和 其 余 参 数 即 可 。 在 上 面 的 例子 中 ，Person() 能 接受 的 其 余 参 数 指 的 是 
name。 


。 self.email = email 这 行 新 的 代码 才 真正 起 到 了 将 EmailPerson 与 Person 区 分 开 的 作用 。 
接 下 来 ， 创 建 一 个 EmailPerson 类 的 对 象 : 

>>> bob = Emailperson('Bob Frapples', 'bob@frapples.com') 
我 们 既 可 以 访问 name 特性 ， 也 可 以 访问 email 特性 : 


>>> bob.name 

"Bob Frapples' 

>>> bob.email 
'bob@frapples .com' 


为 什么 不 像 下 面 这 样 定义 EmailPerson 类 呢 ? 


>>> class EmailPerson(Person): 
def _ init (self, name, email): 
self.name = name 
self.email = email 


确实 可 以 这 么 做 ,但 这 有 悖 我 们 使 用 继承 的 初衷。 我 们 应 该 使 用 super() 来 让 Person 完成 
已 应 该 做 的 事情 ， 就 像 任何 一 个 单纯 的 Person 对 象 一 样 。 除 此 之 外 ， 不 这 么 写 还 有 另 一 个 
好 处 : 如 果 Person 类 的 定义 在 未 来 发 生 改 变 ， 使 用 super() 可 以 保证 这 些 改变 会 自动 反映 
到 EmailPerson 类 上 ， 而 不 需要 手动 修改 。 


子 类 可 以 按照 自己 的 方式 处 理 问题 ,但 如 果 仍 需 要 借助 父 类 的 帮助 ， 使 用 super() 是 最 佳 
的 选择 〈 就 像 现 实生 活 中 孩子 与 父母 的 关系 一 样 ) 。 


6.7 selLf 的 自 辩 


Python 中 经 常 被 和 争议 的 一 点 〈 除 了 使 用 空格 “外 ) 就 是 必须 把 self 设置 为 实例 方法 (前 面 

















































































































注 4: Python 使 用 空格 而 不 使 用 tab 进行 缩 进 ， 并 且 用 缩 进 标志 代码 块 ， 这 使 得 不 同 开发 者 合作 时 必须 事先 
统一 缩 进 空格 的 数量 ， 不 然 会 造成 代码 混乱 。 这 是 Python 被 争议 最 多 的 毛病 之 一 。 一 一 译 者 注 
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例子 中 你 见 到 的 所 有 方法 都 是 实例 方法 ) 的 第 一 个 参数 。Python 使 用 self 参数 来 找到 正 
确 的 对 象 所 包含 的 特性 和 方法 。 通 过 下 面 的 例子 ， 我 会 告诉 你 调用 对 象 方法 背后 Python 实 
际 做 的 工作 。 


还 记得 前 面 例子 中 的 Car 类 吗 ? 再 次 调用 exclaim() 方法 : 


>>> Car = Car() 
>>> car.exclaim() 
I'ma Carl 


中 | 











Python 在 背后 做 了 以 下 两 件 事情 : 


。 查找 car 对 象 所 属 的 类 (Car)， 
。 把 car 对 象 作 为 self 参数 传 给 Car 类 所 包含 的 exclaim() 方法 。 


了 解 调用 机 制 后 ， 为 了 好 玩 ， 我 们 甚至 可 以 像 下 面 这 样 进行 调用 ， 这 与 普通 的 调用 语法 
(car.exclaim()) 效果 完全 一 致 


>>> Car.exclaim(car) 
I'ma Carl 


当然 ， 我 们 没有 理由 使 用 这 种 腔 肿 的 语法 。 


6.8 使 用 属性 对 特性 进行 访问 和 设置 


有 一 些 面向 对 象 的 语言 支持 私有 特性 。 这 些 特性 无 法 从 对 象 外 部 直接 访问 ， 我 们 需要 编写 
getter 和 setter 方法 对 这 些 私 有 特性 进行 读 写 操作 。 


Python 不 需要 getter 和 setter 方法 ， 因 为 Python 里 所 有 特性 都 是 公开 的 ， 使 用 时 全 赁 自觉 。 
如 果 你 不 放心 直接 访问 对 象 的 特性 ， 可 以 为 对 象 编写 setter 和 getter 方法 。 但 更 具 Python 
风格 的 解决 方案 是 使 用 属性 (property) ”。 


下 面 的 例子 中 ， 首 先 定义 一 个 Duck 类 ， 它 仅 包含 一 个 hidden_name 特性 。( 下 一 节 会 告诉 
你 命名 私有 特性 的 一 种 更 好 的 方式 。) 我 们 不 希望 别人 能 够 直接 访问 这 个 特性 ， 因 此 需要 
定义 两 个 方法 : getter 方法 (get_name()) 和 setter 方法 (set_name())。 我 们 在 每 个 方法 中 
都 添加 一 个 print() 函数 ， 这 样 就 能 方便 地 知道 它们 何 时 被 调用 。 最 后 ， 把 这 些 方法 设置 
为 name 属性 : 


>>> class Duck(): 

def _ init (self, input_name): 
seLf .hidden_name = input_name 

def get_name(self): 
print('inside the getter') 
return self.hidden_name 

def set_name(self, input_name): 
print('inside the setter') 
self.hidden name = input_name 

name = property(get_name, set_name) 












































注 5: 本 书 将 property 译作 属性 ， 而 将 attribute 译作 特性 ， 请 读者 注意 区 分 。 








这 两 个 新 方法 在 最 后 一 行 之 前 都 与 普通 的 getter 和 setter 方法 没有 任何 





则 把 这 两 个 方法 定义 为 了 name 属性 。property() 


区 别 ， 而 最 后 一 和 
的 第 一 个 参数 是 getter 方法 ， 第 二 个 参 





数 是 setter 方法 。 现 在 ， 当 你 尝试 访问 Duck 类 对 象 的 name 特性 时 ，get_name() 会 被 自动 





调用 : 


>>> fowl = Duck('Howard') 
>>> fowl.name 
inside the getter 








"Howard ' 
当然 ， 也 可 以 显 式 调 用 get_name() 方法 ， 它 就 像 普通 的 getter 方法 一 样 : 
>>> fowl.get_name() 
inside the getter 
"Howard ' 


IE 





>>> fowL.name = 'Daffy' 
inside the setter 

>>> fowl.name 

inside the getter 
'Daffy' 


也 可 以 显 式 调用 set_name() 方法 : 


>>> fowl.set_name('Daffy') 
inside the setter 

>>> fowl.name 

inside the getter 

'Daffy' 


另 一 种 定义 属性 的 方式 是 使 用 修饰 符 (decorator)。 
们 都 叫 name()， 但 包含 不 同 的 修饰 符 : 


@property， 用 于 指示 getter 方法 ; 
Gname.setter， 用 于 指示 setter 方法 。 


实际 代码 如 下 所 示 : 


>>> class Duck(): 

def _ init (self, input_name): 
self.hidden name = input_name 

@property 

def name(self): 
print('inside the getter') 
return self.hidden_name 

Qname .setter 

def name(self, input_name): 
print('inside the setter') 
self.hidden name = input_name 





对 name 特性 执行 赋值 操作 时 ，set_name() 方法 会 


被 调用 : 


下 一 个 例子 会 定义 两 个 不 同 的 方法 ， 它 





你 仍然 可 以 像 之 前 访问 特性 一 样 访问 name， 但 这 是 
方法 : 


有 没有 了 显 式 的 get_name() 和 set_name() 
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>>> fowL = Duck('Howard') 
>>> fowL.name 

inside the getter 
"Howard ' 

>>> fowL.name = 'Donald' 
inside the setter 

>>> fowl.name 

inside the getter 
'Donald' 


实际 上 ， 如 果 有 人 能 猜 到 我 们 在 类 的 内 部 用 的 特性 名 是 hidden_name， 他 仍 
然 可 以 直接 通过 fowl.hidden_name 进行 读 写 操作 。 下 一 节 将 看 到 Python 中 
特有 的 命名 私有 特性 的 方式 。 






































在 前 面 儿 个 例子 中 ， 我 们 都 使 用 name 属性 指向 类 中 存储 的 某 一 特性 (在 我 们 的 例子 中 是 
hidden_name)。 除 此 之 外 ， 属 性 还 可 以 指向 一 个 计算 结果 值 。 我 们 来 定义 一 个 Circle 类 ， 
它 包含 radius 特性 以 及 一 个 计算 属性 diameter: 


>>> class Circlel(): 
def _ init__(self, radius): 
seLf.radius = radius 
@property 
def diameter(self): 
return 2 * self.radius 

















创建 一 个 Circle 对 象 ， 并 给 radius 赋予 一 个 初 值 : 


>>> C = Circle(5) 
>>> c.radius 
5 


可 以 像 访 问 特性 (例如 radius) 一 样 访问 属性 diameter: 


>>> c.diameter 
10 


真正 有 趣 的 还 在 后 面 。 我 们 可 以 随时 改变 radius 特性 的 值 ， 计 算 属 性 diameter 会 自动 根 
据 新 的 值 更 新 自己 : 
>>> c.radius = 7 


>>> c.diameter 
14 


如 果 你 没有 指定 某 一 特性 的 setter 属性 (@diameter .setter)， 那 么 将 无 法 从 类 的 外 部 对 它 
的 值 进行 设置 。 这 对 于 那些 只 读 的 特性 非常 有 用 : 


>>> c.diameter = 20 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 





























与 直接 访问 特性 相 比 ， 使 用 property 还 有 一 个 巨大 的 优势 : 如 条 你 了 某 个 特性 的 定义 ， 
只 需要 在 类 定义 里 修改 相关 代码 即 可 ， 不 需要 在 每 一 处 调用 修改 。 


6.9 ”使 用 名 称 重 整 保护 私有 特性 


前 面 的 puck 例子 中 ， 为 了 隐藏 内 部 特性 ， 我 们 曾 将 其 命名 为 htdden_name。 其 实 ，Python 
对 那些 需要 刻意 隐藏 在 类 内 部 的 特性 有 自己 的 命名 规范 : 由 连续 的 两 个 下 划 线 开头 (__)。 


我 们 来 把 hidden_name 改名 为 _name， 如 下 所 示 : 


>>> CLass Duck() : 

def _ init (self, input_name): 
self._ name = input_name 

@property 

def name(self): 
print('inside the getter') 
return self._ name 

Qname .Setter 

def name(self, input_name): 
print('inside the setter') 
self._name = input_name 








看 看 代码 是 否 还 能 正常 工作 : 


>>> fowl = Duck('Howard') 
>>> fowl.name 

inside the getter 
"Howard ' 

>>> fowL.name = 'Donald' 
inside the setter 

>>> fowl.name 

inside the getter 
"DonalLd ' 


看 起 来 不 错 ! 现在 ， 你 无 法 在 外 部 访问 _name 特性 了 : 


>>> fowl.__name 
Traceback (most recent call last): 
File "<stdin>", line 1, in <moduLe> 
AttributeError: 'Duck' object has no attribute '__name' 


这 种 命名 规范 本 质 上 并 没有 把 特性 变 成 私有 ， 但 Python 确实 将 它 的 名 字 重 整 了 ， 让 外 部 
的 代码 无 法 使 用 。 如 果 你 实在 好 奇 名 称 重 整 是 怎么 实现 的 ， 我 可 以 偷偷 地 告诉 你 其 中 的 奥 
秘 ， 但 不 要 告诉 别人 哦 ; 


>>> fowL. Duck__name 
"DonalLd ' 



































注 6: 如 前 面 例子 中 ， 假 如 我 们 需要 把 特性 hidden_name 的 名 字 改 成 in_class_name。 不 设置 属性 (property) 
的 话 ， 我 们 需要 在 每 一 处 访问 hidden_name 的 地 方 将 它 替换 成 in_ctass_nane;， 而 设置 了 属性 的 话 ， 仅 
需 在 类 的 内 部 修改 ， 其 余部 分 的 访问 仍 直 接 通过 属性 nane 即 可 。 一 一 译 者 注 
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发 现 了 吗 ? 我 们 并 没有 得 到 inside the getter， 成 功 绕 过 了 getter 方法 。 尽 管 如 我 们 所 
见 ， 这 种 保护 特性 的 方式 并 不 完美 ， 但 它 确 实 能 在 一 定 程度 上 避免 我 们 无 意 或 有 意 地 对 特 
性 进行 直接 访问 。 


6.10 ”方法 的 类 型 
有 些 数据 (特性 ) 和 函数 (方法 ) 是 类 本 身 的 一 部 分 ， 还 有 一 些 是 由 类 创建 的 实例 的 一 部 分 。 


在 类 的 定义 中 ， 以 self 作为 第 一 个 参数 的 方法 都 是 实例 方法 (instance method)。 它 们 在 
创建 自 定 义 类 时 最 常用 。 实 例 方 法 的 首 个 参数 是 seLf， 当 它 被 调用 时 ，Python 会 把 调用 该 
方法 的 对 象 作为 self 参数 传 入 。 


与 之 相对 ， 类 方法 (class method) 会 作用 于 整个 类 ， 对 类 作出 的 任何 改变 会 对 它 的 所 有 实 
例 对 象 产 生 影 响 。 在 类 定义 内 部 ， 用 前 缀 修饰 符 @classmethod 指定 的 方法 都 是 类 方法 。 与 
实例 方法 类 似 ， 类 方法 的 第 一 个 参数 是 类 本 身 。 在 Python 中 ， 这 个 参数 常 被 写作 cls， 基 
为 全 称 class 是 保留 字 ， 在 这 里 我 们 无 法 使 用 。 下 面 的 例子 中 ， 我 们 为 类 A 定义 一 个 类 方 
法 来 记录 一 共有 多 少 个 类 A 的 对 象 被 创建 : 


>>> class A(): 
count = 0 
def _ init (self): 
A.count += 1 
def exclaim(self): 
print("I'm an A!") 
@classmethod 
def kids(cls): 
print("A has", cls.count, "little objects.") 
































>>> 

>>> easy_a = A() 

>>> breezy_a = A() 

>>> wheezy_a = A() 

>>> A.kids() 

A has 3 little objects. 


注意 ， 上 面 的 代码 中 ， 我 们 使 用 的 是 A.count (类 特性 )， 而 不 是 seLf.count (可 能 是 对 象 
的 特性 )。 在 kids() 方法 中 ， 我 们 使 用 的 是 cls.count， 它 与 A.count 的 作用 一 样 。 


类 定义 中 的 方法 还 存在 着 第 三 种 类 型 ， 它 既 不 会 影响 类 也 不 会 影响 类 的 对 象 。 它 们 出 现在 
类 的 定义 中 仅仅 是 为 了 方便 ， 否 则 它们 只 能 扳 零 零 地 出 现在 代码 的 其 他 地 方 ， 这 会 影响 代 
码 的 逻辑 性 。 这 种 类 型 的 方法 被 称 作 静态 方法 (static method) ， 用 @staticmethod 修饰 ， 
它 既 不 需要 self 参数 也 不 需要 class 参数 。 下 面 例子 中 的 静态 方法 是 一 则 CoyoteWeapon 
的 广告 : 
>>> class CoyoteWeapon(): 
@staticmethod 


def commercial(): 
print('This CoyoteWeapon has been brought to you by Acme') 





























>>> 
>>> CoyoteWeapon.commercial() 
This CoyoteWeapon has been brought to you by Acme 


注意 ， 在 这 个 例子 中 ， 我 们 其 至 都 不 用 创建 任何 CoyoteWeapon 类 的 对 象 就 可 以 调用 这 个 方 
法 ， 句 法 优雅 不 失 风格 ! 


6.11 了 鸭子 类 型 


Python 对 实现 多 态 (polymorphism) 要 求 得 十 分 宽松 ， 这 意味 着 我 们 可 以 对 不 同 对 象 调用 
同名 的 操作 ， 甚 至 不 用 管 这 些 对 象 的 类 型 是 什么 。 


我 们 来 为 三 个 Quote 类 设 定 同样 的 初始 化 方法 _init__()， 然 后 再 添加 两 个 新 函数 : 


。 who() 返回 保存 的 person 字符 串 的 值 ， 
。 says() 返回 保存 的 words 字符 串 的 内 容 ， 并 添上 指定 的 标点 符号 。 


它们 的 具体 实现 如 下 所 示 : 


>>> CLass Quote() : 
def _ init (self, person, words): 
self.person = person 
self.words = words 
def whol(self): 
return self.person 
def says(self): 
return self.words + 
































>>> class QuestionQuote(Quote): 
def says(self): 
return self.words + '?" 


>>> class ExclamationQuote(Quote): 
def says(self): 
return self.words + '! 


>>> 


我 们 不 需要 改变 QuestionQuote 或 者 ExclamationQuote 的 初始 化 方式 ， 因 此 没有 覆盖 它们 
的 _init__() 方法。Python 会 自动 调用 父 类 Quote 的 初始 化 函数 _init__() 来 存储 实例 
变量 person 和 words， 这 就 是 我 们 可 以 在 子 类 QuestionQuote 和 ExclamationQuote 的 对 象 
里 访问 self.words 的 原因 。 


接 下 来 创建 一 些 对 象 : 


>>> hunter = Quote('Elmer Fudd' ，"I'm hunting wabbits") 
>>> print(hunter .who()， 'says:', hunter.says()) 
ELmer Fudd says: I'm hunting wabbits. 

















>>> hunted1 = QuestionQuote('Bugs Bunny', "What's up, doc") 
>>> print(hunted1.who()， 'says:', hunted1.says()) 
Bugs Bunny says: What's yup, doc? 
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>>> hunted2 = ExclamationQuote('Daffy Duck', "It's rabbit season") 
>>> print(hunted2.who(), 'says:', hunted2.says()) 
Daffy Duck says: It's rabbit season! 


三 个 不 同 版 本 的 says() 为 上 面 三 种 类 提供 了 不 同 的 响应 方式 ， 这 是 面向 对 象 的 语言 中 多 态 
的 传统 形式 。Python 在 这 方面 走 得 更 远 一 些 ， 无 论 对 象 的 种 类 是 什么 ， 只 要 包含 who() 和 
says()， 你 便 可 以 调用 它 。 我 们 再 来 定义 一 个 BabblingBrook 类 ， 它 与 我 们 之 前 的 猎人 猪 
物 (Quote 类 的 后 代 ) 什么 的 没有 任何 关系 : 
>>> class BabblingBrook(): 
def who(seLf ) : 
return "Brook' 


def says(self): 
return 'Babble' 





























ey brook = BabblingBrook() 
现在 ， 对 不 同 对 象 执行 who() 和 says() 方法 ， 其 中 有 一 个 (brook) 与 其 他 类 型 的 对 象 毫 
无 关联 ; 
>>> def who_says(obj): 
print(obj.who(), 'says', obj.says()) 





>>> who_says(hunter) 

Elmer Fudd says I'm hunting wabbits. 
>>> who_says(hunted1) 

Bugs Bunny says What's up, doc? 

>>> who_says(hunted2) 

Daffy Duck says It's rabbit season! 
>>> who_says(brook) 

Brook says Babble 


这 种 方式 有 时 被 称 作 鸣 子 类 型 (duck typing)， 这 个 命名 源 自 一 句 名 言 : 
如 果 它 像 鸭子 一 样 走路 ， 像 鸣 子 一 样 叫 ， 那 么 它 就 是 一 只 鸭子 。” 
一 一 一 位 智者 


6.12 特殊 方法 


到 目前 为 止 ， 你 已 经 能 创建 并 使 用 基本 对 象 了 。 现 在 再 往 深 钻研 一 些 。 


当 我 们 输入 像 a = 3 + 8 这样 的 式 子 时 ， 整 数 3 和 8 是 怎么 知道 如 何 实现 + 的 ?同样 ，a 
又 是 怎么 知道 如 何 使 用 = 来 获取 计算 结果 的 ?你 可 以 使 用 Python 的 特殊 方法 (special 
method) ， 有 时 也 被 称 作 魔术 方法 (magic method)， 来 实现 这 些 操作 符 的 功能 。 别 担心 ， 
不 需要 甘 道 夫 ”的 帮助 ， 它 们 一 点 也 不 复杂 。 









































注 7: 源 于 “蝎子 测试 "。 在 鸭子 类 型 中 ， 并 不 关注 对 象 本 身 的 具体 类 型 ， 只 关注 它 能 实现 的 功能 。 














注 8: 英国 作家 丁 R.R. 托 尔 金 小 说 《指环 王 》《 霍 比特 人 》 中 的 巫师 。 一 一 译 者 注 
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这 些 特 殊 方法 的 名 称 以 双 下 划 线 (_) 开头 和 结束 。 没 错 ， 你 已 经 见 过 其 中 一 个 : 一 
init_, nn 


假设 你 有 一 个 简单 的 Word 类 ， 现 在 想 要 添加 一 个 equalts() 方法 来 比较 两 个 词 是 否 一 致 ， 
忽略 大 小 写 。 也 就 是 说 ， 一 个 包含 值 'ha' 的 Word 对 象 与 包含 'HA' 的 是 相同 的 。 


下 面 的 代码 是 第 一 次 尝试 ， 创 建 一 个 普通 方法 equals()。self.text 是 当前 Word 对象 所 包 
含 的 字符 串 文本 ，equats() 方法 将 该 字符 串 与 word2 ( 另 一 个 Word 对 象 ) 所 包含 的 字符 串 
做 比较 : 

>>> class Word(): 


def _ init (self, text): 
self.text = text 























def equals(self, word2): 
return self.text.lower() == word2.text. lower() 





接着 创建 三 个 包含 不 同 字符 串 的 Word 对 象 : 


>>> first = Word('ha') 
>>> second = Word('HA') 
>>> third = Word('eh') 


当 字符 串 'ha' 和 'HA' 被 转换 为 小 写 形式 再 进行 比较 时 (我 们 就 是 这 么 做 的 )， 它 们 应 该 是 
相等 的 : 


>>> first.equals(second) 
True 


但 字符 串 'eh' 无 论 如 何 与 'ha' 也 不 会 相等 : 


>>> first.equals(third) 
False 


我 们 成 功 定 义 了 equals() 方法 来 进行 小 写 转换 并 比较 。 但 试想 一 下 ， 如 果 能 通过 if first 
== second 进行 比较 的 话 吕 不 更 妙 ? 这 样 类 会 更 自然 ， 表 现 得 更 像 一 个 Python 内 置 的 类 。 
好 的 ， 来 试 试 吧 ， 把 前 面 例子 中 的 equals() 方法 的 名 称 改 为 _eq_() (请 先 暂 时 接受 ， 后 
面 我 会 解释 为 什么 这 么 命名 ) : 
>>> class Word(): 
def _ init (self, text): 
self.text = text 


def _ eq_(self, word2): 
return seLf.text.Lower() == word2.text.Lower() 


























修改 就 此 结束 ， 来 看 看 新 的 版 本 能 否 正常 工作 : 


>>> first = Word('ha') 
>>> second = Word('HA') 
>>> third = Word('eh') 
>>> first == second 
True 
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>>> first == third 


False 


太 神 奇 了 1 是 不 是 如 同 魔术 一 般 ? 仅 需 将 方法 名 改 为 Python 里 进行 相等 比较 的 特殊 方法 名 
eq_() 即 可 。 表 6-1 和 表 6-2 列 出 了 最 常用 的 一 些 魔术 方法 。 


表 6-1: 和 比较 相关 的 魔术 方法 








方法 名 使 用 
_eq_(self, other) self == other 
_ne_(self, other) self != other 
_lt_(self, other) self < other 
_gt_ (self, other) self > other 
_le_(self, other) self <= other 
_ge_(self, other) self >= other 


表 6-2: 和 数学 相关 的 魔术 方法 


方法 名 


使 用 





_ add (self, other) 
_sub_(self, other) 
_mul_(self, other) 
_ floordiv_ (self, other) 
__truediv_ (self, other) 
_mod_ (self, other) 
_pow_(self, other) 


不 仅 数字 类 型 可 以 使 用 像 + (魔术 方法 _add_()) 和 - 


self + other 
self - other 
self * other 
self // other 
self / other 
self % other 


self ** other 


(魔术 方法 _sub_()) 的 数学 运算 





符 ， 一 些 其 他 的 类 型 也 可 以 使 用 。 例 如 ，Python 的 字符 串 类 型 使 用 + 进行 拼接 ， 使 用 * 进 
的 魔术 方法 还 有 很 多 ， 你 可 以 在 Python 3 在 线 文档 的 Special method 
names (https://docs.python.org/3/reference/datamodel.html#special-method-names) 里 找到 , 其 中 
最 常用 的 一 些 参见 下 面 的 表 6-3。 


行 复制 。 关 于 字符 




















表 6-3: 其 他 种 类 的 魔术 方法 





方法 名 使 用 

__str_(self) str(self) 
__repr__(self) repr(self) 
__len_(self) len(self) 





除了 __init_() 外 ， 你 会 发 现在 编写 类 方法 时 最 常用 到 的 是 _str_()， 它 用 于 定义 如 何 
打印 对 象 信息 。print() 方法 ，str() 方法 以 及 你 将 在 第 7 章 读 到 的 关于 字符 串 格 式 化 的 相 
关 方法 都 会 用 到 __str_()。 交 互 式 解 释 器 则 用 __repr__() 方法 输出 变量 。 如 果 在 你 的 类 


既 没有 定义 _str_() 也 没有 定义 _repr_()，Python 会 输出 类 似 下 面 这 样 的 默认 字符 串 : 





>>> first = Word('ha') 


>>> fir 


st 





















































<__main__.Word object at 0x100 
>>> print(first) 
<__main__.Word object at 0x100 


6ba3d0> 


6ba3d0> 


我 们 将 _str_() 和 _repr_() 方法 都 添加 到 Word 类 里 ， 让 输出 的 对 象 信息 变 得 更 好 看 些 : 





>>> class Word(): 

def _ init (self, tex 
self.text = text 

def _ eq_(self, word2 
return self.text.l 

def _ str__(self): 
return self.text 

def _repr_ (seLf) : 
return 'Word("' 5s 


>>> first = Word('ha') 


>>> first # Uses _re 
Word("ha") 

>>> print(first) # Uses _st 
ha 


t): 


): 


ower() == Word2.text.Lower() 


elf.text ‘'")' 


pr 


二 


更 多 关于 魔术 方法 的 内 容 请 查看 Python 在 线 文档 (https://docs.python.org/3/reference/ 


datamodel.html#special-method-names )。 


6.13 ”组合 


如 果 你 想 要 创建 的 子 类 在 大 多 数 情 
殊 情况 ， 它 们 之 间 是 is-a 的 关系 )， 
实 很 吸引 人 ,但 有 些 时 候 使 用 组 合 























况 下 的 行为 都 和 父 类 相似 的 话 ( 子 类 是 父 类 的 一 种 特 
使 用 继承 是 非常 不 错 的 选择 。 建 立 复杂 的 继承 关系 确 
(composition) 或 聚合 (aggregation) 更 加 符合 现实 的 








逻辑 (x 含 有 y， 它 们 之 间 是 has-a 的 关系 )。 一 只 了 鸭 子 是 鸟 的 一 种 (is-a)， 它 有 一 条 尾巴 





(has-a) 。 尾 巴 并 不 是 鸭子 的 一 种 ， 
和 tatt 对象， 并 将 它们 都 提供 给 du 
>>> class Bill(): 


def _ init (self, des 
self.description = 





>>> class Tail(): 
def _ init (self, len 
self.length = leng 


>>> class Duck(): 
def _init (self, bil 
self.bill = bill 
self.tail = tail 
def about(self): 


它 是 鸭子 的 组 成 部 分 。 下 个 例子 中 ， 我 们 会 建立 btLL 
ck 使 用 : 


cription): 
description 


gth): 
th 


1, tail): 


print('This duck has a', bill.description, 'bill and a', 


tail. Length, 
>>> tail 
>>> bill 


Tail('long') 
Bill('wide orange') 


'tail') 
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>>> duck = Duck(bill, tail) 
>>> duck.about() 
This duck has a wide orange bill and a long tail 


6.14 何 时 使 用 类 和 对 象 而 不 是 模块 


有 一 些 方法 可 以 帮助 你 决定 是 把 你 的 代码 封装 到 类 里 还 是 模块 里 


当 你 需要 许多 具有 相似 行为 (方法 ) 但 不 同 状态 (特性 ) 的 实例 时 ， 使 用 对 象 是 最 好 的 
选择 。 

。 类 支持 继承 ， 但 模块 不 支持 。 

。 如 果 你 想 要 保证 实例 的 唯一 性 ， 使 用 模块 是 最 好 的 选择 。 不 管 模块 在 程序 中 被 引用 多 少 
次 ,始终 只 有 一 个 实例 被 加 载 。( 对 Java 和 C++ 程序 员 来 说 ,如 果 读 过 Erich Gamma 的 《 设 
计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》， 可 以 把 Python 模块 理解 为 单 例 。) 

。 如 果 你 有 一 系列 包含 多 个 值 的 变量 ， 并 且 它 们 能 作为 参数 传 入 不 同 的 函数 ， 那 么 最 好 
将 它们 封装 到 类 里 面 。 举 个 例子 ， 你 可 能 会 使 用 以 size 和 color 为 键 的 字典 代表 一 张 
彩色 图 片 。 你 可 以 在 程序 中 为 每 张 图 片 创建 不 同 的 字典 ， 并 把 它们 作为 参数 传递 给 像 
scale() 或 者 transform() 之 类 的 国 数 。 但 这 么 做 的 话 ， 一 旦 你 想 要 添加 其 他 的 键 或 者 
函数 会 变 得 非常 麻烦 。 为 了 保证 统一 性 ， 应 该 定义 一 个 Image 类 ,把 size 和 color 作 
为 特性 ， 把 scale() 和 transform() 定义 为 方法 。 这 么 一 来 ， 关 于 一 张 图 片 的 所 有 数据 
和 可 执行 的 操作 都 存储 在 了 统一 的 位 置 。 

。 用 最 简单 的 方式 解决 问题 。 使 用 字典 、 列 表 和 元 组 往往 要 比 使 用 模块 更 加 简单 、 简 洁 且 
快速 。 而 使 用 类 则 更 为 复杂 。 

创始 人 Guido 的 建议 : 

不 要 过 度 构建 数据 结构 。 尽 量 使 用 元 组 ( 以 及 命名 元 组 ) 而 不 是 对 象 。 尽 量 使 用 

简单 的 属性 域 而 不 是 getter/setter 函数 ……: 内 置 数据 类 型 是 你 最 好 的 朋友 。 尽 可 

能 多 地 使 用 数字 、 字 符 串 、 元 组 、 列 表 、 集 合 以 及 字典 。 多 看 看 容器 库 提 供 的 类 

型 ， 尤 其 是 双 端 队列 。 



















































































一 一 Guido van Rossum 


命名 元 组 

由 于 Guido 刚刚 提 到 了 命名 元 组 (named tuple) ， 那 么 我 们 就 在 这 里 谈 一 谈 关 于 它 的 事情 。 
命名 元 组 是 元 组 的 子 类 ， 你 既 可 以 通过 名 称 (使 用 .name) 来 访问 其 中 的 值 ， 也 可 以 通过 
位 置 进 行 访问 (使 用 [offset])。 


我 们 来 把 前 面 例子 中 的 Duck 类 改写 成 命名 元 组 ， 简 洁 起 见 ， 把 bitll 和 tail 当 作 简单 的 字 
符 串 特 性 而 不 当 作 类 。 我 们 可 以 通过 将 下 面 两 个 参数 传人 namedtuple 函数 来 创建 命名 元 组 : 


。 名 称 ; 
。 由 多 个 域名 组 成 的 字符 串 ， 各 个 域名 之 间 由 空格 隔 开 。 


命名 元 组 并 不 是 Python 自动 支持 的 类 型 ， 使 用 之 前 需要 加 载 与 其 相关 的 模块 ， 下 面 例子 中 
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的 第 一 行 就 是 在 进行 模块 加 载 工作 : 


>>> from collections import namedtuple 
>>> Duck = namedtuple('Duck', 'bill tail') 
>>> duck = Duck('wide orange', 'long') 

>>> duck 

Duck(bill='wide orange', tail='long') 

>>> duck.bill 

"wide orange’ 

>>> duck.tail 


"Long 
也 可 以 用 字典 来 构造 一 个 命名 元 组 : 
>>> parts = {'bill': 'wide orange', 'tail': 'long'} 
>>> duck2 = Duck(**parts) 
>>> duck2 


Duck(bill='wide orange', tail='long') 


生意， 上 面 例子 中 的 **parts， 它 是 个 关键 词 变量 (keyword argument) 。 它 的 作用 是 将 parts 
ee Duck() 使 用 。 它 与 下 面 这 行 代 码 的 功能 一 样 


>>> duck2 = Duck(bill = 'wide orange', tail = 'long') 


命名 元 组 是 不 可 变 的 ， 但 你 可 以 替换 其 中 某 些 域 的 值 并 返回 一 个 新 的 命名 元 组 : 


>>> duck3 = duck2._replace(tail='magnificent', bill='crushing') 
>>> duck3 
Duck(bill='crushing', tail='magnificent') 


假设 我 们 把 duck 定义 为 字典 : 


>>> duck_dict = {'bill': "wide orange', 'tail': 'long'} 
>>> duck_dict 
{'tail': 'long', 'bill': 'wide orange'} 


可 以 向 字典 里 添加 新 的 域 ( 键 值 对 ) : 


>>> duck_dict['color'] = green' 
>>> duck_dict 
{'color': 'green', 'tail': 'long', 'bill': "wide orange'} 


但 无 法 对 命名 元 组 这 么 做 : 


>>> duck.color = 'green' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <moduLe> 
AttributeError: 'dict' object has no attribute 'color' 


作为 总 结 ， 我 列 出 了 一 些 使 用 命名 元 组 的 好 处 : 


。 它 无 论 看 起 来 还 是 使 用 起 来 都 和 不 可 变 对 象 非常 相似 ; 

。 与 使 用 对 象 相 比 ， 使 用 命名 元 组 在 时 间 和 空间 上 效率 更 高 ， 

。 可 以 使 用 点 号 (.) 对 特性 进行 访问 ， 而 不 需要 使 用 字典 风格 的 方 括号 ， 
。 可 以 把 它 作为 字典 的 键 。 
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6.15 ”练习 


(1) 创建 一 个 名 为 Thing 的 空 类 并 将 它 打印 出 来 。 接 着 ， 创 建 一 个 属于 该 类 的 对 象 example， 
同样 将 它 打印 出 来 。 看 看 这 两 次 打印 的 结果 是 一 样 的 还 是 不 同 的 ? 

(2) 创建 一 个 新 的 类 Thing2， 将 'abc' 赋值 给 类 特性 Letters， 打 印 Letters。 

(3) 再 创建 一 个 新 的 类 ， 叫 作 Thing3。 这 次 将 'xyz' 赋值 给 实例 (对象) 特性 Letters， 并 
试 着 打印 Letters。 看 看 你 是 不 是 必须 先 创 建 一 个 对 象 才 可 以 进行 打印 操作 ? 

(4) 创建 一 个 名 为 ELement 的 类 ， 它 包含 实例 特性 name、symbol 和 number。 使 用 'Hydrogen '、 
'H' 和 1 实例 化 一 个 对 象 。 

(5) 创建 一 个 字典 ， 包 含 这 些 键 值 对 : 'name': 'Hydrogen'、'symbol': 'H' 和 'number': 1。 
然后 用 这 个 字典 实例 化 Element 类 的 对 象 hydrogen。 

(6) 为 Element 类 定义 一 个 dump() 方法 ， 用 于 打印 对 象 的 特性 (name、symboL 和 number ) 。 
使 用 这 个 新 定义 的 类 创建 一 个 对 象 hydrogen 并 用 dump() 打印 。 

(7) 调 用 print(hydrogen)， 然 后 修改 Element 的 定义 ， 将 dump 方法 的 名 字 改 为 _str_。 
再 次 创建 一 个 hydrogen 对象 并 调用 print(hydrogen) ， 观 察 输出 结果 。 

(8) 修改 Element 使 得 name、symbol 和 number 特性 都 变 成 私有 的 。 为 它们 各 定义 一 个 getter 
属性 来 返回 各 自 的 值 。 

(9) 定 义 三 个 类 Bear、Rabbit 和 0ctothorpe。 对 每 个 类 都 只 定义 一 个 方法 eats()， 分别 返 
回 'berries' (Bear)、'clover' (Rabbit) 和 'campers' (0ctothorpe)。 为 每 个 类 创建 
一 个 对 象 并 输出 它们 各 自 吃 的 食物 (调用 eats())。 

(10) 定义 三 个 类 Laser、CLaw 以 及 SmartPhone。 每 个 类 都 仅 有 一 个 方法 does()， 分别 返 回 

'disintegrate' (Laser)、'crush' (Claw) 以 及 'ring' (SmartPhone)。 接 着 ， 定 义 

Robot 类 ， 包 含 上 述 三 个 类 的 实例 (对象 ) 各 一 个 。 给 Robot 定义 does() 方法 用 于 输 

出 它 各 部 分 的 功能 。 
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像 高 手 一 样 玩 转 数 据 








本 章 将 学 到 许多 操作 数据 的 方法 ， 它 们 大 多 与 下 面 这 两 种 内 置 的 Python 数据 类 型 有 关 。 
。 字符 囊 

Unicode 字符 组 成 的 序列 ， 用 于 存储 文本 数据 。 
。 字 节 和 字 节 数组 

8 比特 整数 组 成 的 序列 ， 用 于 存储 二 进 制 数据 。 


7.1 文本 字符 串 


对 大 多 数 读者 来 说， 文本 应 该 是 最 熟悉 的 数据 类 型 了 ， 因 此 我 们 从 文本 入 手 ， 首 先 介绍 一 
些 Python 中 有 关 字 符 串 操作 的 强大 特性 。 





7.1.1 Unicode 


到 目前 为 止 ， 书 中 例子 使 用 的 都 是 用 原始 ASCII 编码 的 字符 串 。ASCII 诞生 于 20 世纪 60 
年 代 ， 那 时 的 计算 机 还 和 冰箱 差不多 大 ， 运 算 速度 也 仅仅 比 人 力 稍 快 一 些 。 众 所 周知 ， 计 
算 机 的 基本 存储 单元 是 字 节 (byte) ， 它 包含 8 位 /比特 (bit)， 可 以 存储 256 种 不 同 的 值 。 
出 于 一 些 设计 目的 ，ASCII 只 使 用 了 7 位 (128 种 取 值 ) : 26 个 大 写字 母 、26 个 小 写字 母 、 
10 个 阿拉 伯 数 字 、 一 些 标点 符号 、 空 白 符 以 及 一 些 不 可 打印 的 控制 符 。 

不 幸 的 是 ， 世 界 上 现存 的 字符 远 远 超过 了 ASCII 所 能 支持 的 128 个 。 设 想 在 一 个 只 
有 ASCII 字符 的 世界 中 ， 你 可 以 在 咖啡 厅 点 个 热狗 作为 晚餐 ， 但 永远 也 点 不 到 美味 的 
Gewiirztraminer 酒 '。 为 了 支持 更 多 的 字母 及 符号 ， 人 们 已 经 做 出 了 许多 努力 ， 其 中 有 些 成 























注 1: 这 个 词 在 德语 中 原本 含有 曲 音符 ， 但 传 到 法 国 时 就 丢失 了 。 
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果 你 可 能 见 到 过 。 例 如 下 面 这 两 个 : 

。 Latin-l 或 ISO 8859-1 

。 Windows code page 1252 

上 面 这 些 编码 规则 使 用 全 8 比特 (ASCI 只 使 用 了 7 比特 ) 进行 编码 ， 但 这 明显 不 够 用 ， 
尤其 是 当 你 需要 表示 非 印 欧 语系 的 语言 符号 时 。Unicode 编码 是 一 种 正在 发 展 中 的 国际 化 
规范 ， 它 可 以 包含 世界 上 所 有 语言 以 及 来 自 数学 领域 和 其 他 领域 的 各 种 符号 。 


Unicode 为 每 个 字符 赋予 了 一 个 特殊 的 数字 编码 ， 这 些 编码 与 具体 平台 、 程 序 、 
语言 均 无 关 。 









































Unicode 协会 


Unicode Code Charts 页 面 (http://www.unicode.org/charts/) 包含 了 通 往 目前 已 定义 的 所 有 
字符 集 的 链接 ， 且 包含 字符 图 示 。 最 新 的 版 本 (6.2) 定义 了 超过 110 000 种 字符 ， 每 一 种 
都 有 自己 独特 的 名 字 和 标识 数 。 这 些 字 符 被 分 成 了 若干 个 8 比特 的 集合 ， 我 们 称 之 为 平面 
(plane)。 前 256 个 平面 为 基本 多 语言 平面 (basic multilingual plane)。 你 可 以 在 维基 百科 中 
查看 更 多 关于 Unicode 平面 的 信息 (http://en.wikipedia.org/wiki/Plane_(Unicode))。 


1. Python 3 中 的 Unicode 字 符 串 
Python 3 中 的 字符 串 是 Unicode 字符 串 而 不 是 字 节 数组 。 这 是 与 Python 2 相 比 最 大 的 差别 。 
在 Python 2 中 ， 我 们 需要 区 分 普通 的 以 字 节 为 单位 的 字符 串 以 及 Unicode 字符 串 。 


如 有 果 你 知道 某 个 字符 的 Unicode ID， 可 以 直接 在 Python 字符 串 中 引用 这 个 ID 获得 对 应 字 
符 。 下 面 是 几 个 例子 。 


。 用 \u 及 4 个 十 六 进 制 的 数字 ?可 以 从 Unicode 256 个 基本 多 语言 平面 中 指定 某 一 特定 字 
符 。 其 中 ， 前 两 个 十 六 进 制 数字 用 于 指定 平面 号 (09 到 FF) ， 后 面 两 个 数字 用 于 指定 该 
字符 位 于 平面 中 的 位 置 索 引 。099 号 平面 即 为 原始 的 ASCII 字符 集 ， 字 符 在 该 平面 的 位 
置 索引 与 它 的 ASCII 编码 一 致 。 

。 我 们 需要 使 用 更 多 的 比特 位 来 存储 那些 位 于 更 高 平面 的 字符 。Python 为 此 而 设计 的 转 义 
序列 以 \U 开头 ， 后 面 紧 跟着 8 个 十 六 进 制 的 数字 ， 其 中 最 左 一 位 需 为 0。 

。 你 也 可 以 通过 \N{name} 来 引用 某 一 字符 ， 其 中 name 为 该 字符 的 标准 名 称 ， 这 对 所 有 平 
面 的 字符 均 适 用 。 在 Unicode 字符 名 称 索 引 页 (http://www.unicode.org/charts/charindex. 
html) 可 以 查 到 字符 对 应 的 标准 名 称 。 


Python 中 的 unicodedata 模块 提供 了 下 面 两 个 方向 的 转换 函数 : 

。 lookup() 一 一 接受 不 区 分 大 小 写 的 标准 名 称 ， 返 回 一 个 Unicode 字符 ; 

。 name() 接受 一 个 Unicode 字符 ， 返 回 大 写 形式 的 名 称 。 

下 面 的 例子 中 ， 我 们 将 编写 一 个 测试 函数 ， 它 接受 一 个 Python Unicode 字符 ， 查 找 它 对 应 
的 名 称 ， 再 用 这 个 名 称 查找 对 应 的 Unicode 字符 ( 它 应 该 与 原始 字符 相同 ) : 








































































































































































































注 2: 0~9、A~F， 共 16 个 字符 。 
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>>> def unicode_test(vaLue) : 
import unicodedata 
name = unicodedata.name(value) 
vaLue2 = unicodedata.lookup(name) 
print('value="%s", name="%s", valuye2="%s 


% (value, name, value?2)) 


用 一 些 字符 来 测试 一 下 吧 。 首 先 试 一 下 纯 ASCII 字符 : 


>>> unicode test('A') 
value="A", name="LATIN CAPITAL LETTER A", valye2="A" 


ASCII 标点 符号 : 


>>> unicode test('$') 
value="$", name="DOLLAR SIGN", value2="$" 


Unicode 货币 字符 : 


>>> UNnicode test('\u00a2') 
value="¢", Nname="CENT SIGN", value2="¢" 


另 一 个 Unicode 货币 字符 : 


>>> UNnicode test('\u20ac') 
value="€", Name="EURO SIGN", value2="€" 


这 些 例子 唯一 可 能 遇 到 的 问题 来 源 于 使 用 的 字体 自身 的 限制 。 没 有 任何 一 种 字体 涵盖 了 所 
有 Unicode 字符 ， 当 缺失 对 应 字符 的 图 片 时 ， 会 以 占 位 符 的 形式 显示 。 例 如 下 面 是 尝试 打 
印 SNOWMAN 字符 得 到 的 结果 ， 这 里 使 用 的 是 dingbat 字体 : 

>>> unicode test('\y2603') 

value="g", Name="SNOWMAN", value2="g" 
假设 想 在 Python 字符 串 中 存储 cafe 这 个 词 。 一 种 方式 是 从 其 他 文件 或 者 网 站 中 复制 粘贴 
出 来 ， 但 这 并 不 一 定 成 功 ， 只 能 祈祷 一 切 正 常 : 

>>> place = 'café' 


>>> place 
"cafe ' 


示例 中 之 所 以 成 功 是 因为 我 是 从 以 UTF-8 编码 〈 马 上 你 就 会 了 解 ) 的 文本 源 复制 粘贴 过 
来 的 。 

有 没有 什么 办 法 能 够 直接 指定 末尾 的 字符 呢 ”如果 你 查看 了 EE 索引 (http://www.unicode. 
org/charts/charindex.html#E) 下 的 字符 会 发 现 ， 我 们 所 需 字 符 E WITH ACUTE，LATIN SMALL 
LETTER 对 应 的 Unicode 值 为 009E9。 我 们 用 刚刚 的 name() 函数 和 lookup() 函数 来 检测 一 下 ， 
首先 用 编码 值 查询 字符 名 称 : 


>>> Unicodedata.name('\u00e9') 
'LATIN SMALL LETTER E NITH ACUTE' 


接着 ， 通 过 名 称 查询 对 应 的 编码 值 : 
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>>> unicodedata.lookup('E NITH ACUTE，LATIN SMALL LETTER ' ) 
Traceback (most recent call Last) : 
File "<stdin>", line 1, in <module> 
KeyError: "undefined character name 'E NITH ACUTE, LATIN SMALL LETTER'" 


为 了 方便 查阅 ，Unicode 字符 名 称 索引 页 列 出 的 字符 名 称 是 经 过 修改 的 ， 因 
此 与 由 name() 函数 得 到 的 名 称 有 所 不 同 。 如 果 需 要 将 它们 转化 为 真实 的 
Unicode 名 称 (Python 使 用 的 )， 只 需 将 逗号 舍 去 ， 并 将 逗号 后 面 的 内 容 移 到 
最 前 面 即 可 。 据 此 ， 我 们 应 将 E NITH ACUTE，LATIN SMALL LETTER 改 为 LATIN 
SMALL LETTER E WITH ACUTE 











>>> Unicodedata.Lookup('LATIN SMALL LETTER E NITH ACUTE ' ) 


e 








现在 ， 可 以 通过 字符 名 称 或 者 编码 值 来 指定 cafe 这 个 词 了 : 


>>> place = "caf\u00e9' 

>>> place 

"cafe' 

>>> place = 'caf\N{LATIN SMALL LETTER E NITH ACUTE} 
>>> place 

"Cafe' 


上 面 的 代码 中 ， 我 们 将 《直接 插入 了 字符 串 中 。 也 可 以 使 用 拼接 来 构造 字符 串 : 


>>> U_UmLaut = '\N{LATIN SMALL LETTER U WITH DIAERESIS}' 
>>> U_UmLaut 


>>> drink = 'Gew' + U_umlaut + "rztramtner 
>>> print('Now I can finally have my', drink, 'in a', place) 
Now I can finally have my Gewirztraminer in a cafe 


字符 串 函 数 Len 可 以 计算 字符 串 中 Unicode 字符 的 个 数 ， 而 不 是 字 节 数 : 
>>> len('$') 
1 
>>> Len('\U0001f47b ' ) 
1 
2. 使 用 UTF-8 编 码 和 解码 
对 字符 串 进行 处 理 时 ， 并 不 需要 在 意 Python 中 Unicode 字符 的 存储 细节 。 
但 当 需 要 与 外 界 进行 数据 交互 时 则 需要 完成 两 件 事 情 : 
。 将 字符 串 编 码 为 字 节 ， 
。 将 字 节 解码 为 字符 串 。 
如 果 Unicode 包含 的 字符 种 类 不 超过 64 000 种 ， 我 们 就 可 以 将 字符 ID 统一 存储 在 2 字 节 
中 。 遗 憾 的 是 ，Unicode 所 包含 的 字符 种 类 远 不 止 于 此 。 诚 然 ， 我 们 可 以 将 字符 ID 统一 编 
码 在 3 或 4 字 节 中 ,但 这 会 使 空间 开销 (内存 和 硬盘 ) 增加 3 到 4 倍 。 


两 位 为 Unix 开发 者 所 熟知 的 大 神 Ken Thompson 和 Rob Pike 在 新 泽 西 共用 晚餐 时 解决 了 
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这 个 问题 ， 他 们 在 餐桌 垫上 设计 出 了 UTF-8 动态 编码 方案 。 这 种 方案 会 动态 地 为 每 一 个 
Unicode 字符 分 配 1 到 4 字 节 不 等 : 


。 为 ASCII 字符 分 配 1 字 市 ， 

。 为 拉丁 语系 〈 除 西里 尔 语 ) 的 语言 分 配 2 字 节 ， 

。 为 其 他 的 位 于 基本 多 语言 平面 的 字符 分 配 3 字 节 ， 

。 为 剩 下 的 字符 集 分 配 4 字 节 ， 这 包括 一 些 亚 吝 语 言及 符号 。 


UTF-8 是 Python、Linux 以 及 HTML 的 标准 文本 编码 格式 。 这 种 编码 方式 简单 快速 、 字 符 
覆盖 面 广 、 出 错 率 低 。 在 代码 中 全 都 使 用 UTF-8 编码 会 是 一 种 非常 棒 的 体验 ， 你 再 也 不 需 
要 不 停 地 转化 各 种 编码 格式 。 


如 果 你 创建 Python 字符 串 时 使 用 了 从 别 的 文本 源 〈 例 如 网 页 ) 复制 粘贴 
过 来 的 字符 串 ， 一 定 要 确保 文本 源 使 用 的 是 UTF-8 编码 。 将 Latin-1 或 者 
Windows 1252 复制 粘贴 为 Python 字符 串 的 错误 极其 常见 ， 这 样 得 到 的 字 节 
序列 是 无 效 的 ， 会 产生 许多 后 续 隐 患 。 












































3. 编码 
编码 是 将 字符 囊 转 化 为 一 系列 字 节 的 过 程 。 字 符 串 的 encode() 函数 所 接收 的 第 一 个 参数 是 























编码 方式 名 。 可 选 的 编码 方式 列 在 了 表 7-1 中 。 
表 7-1: 编码 方式 

编码 说 明 

'ascii!' 经 典 的 7 比特 ASCII 编码 

'utf-8， 最 常用 的 以 8 比特 为 单位 的 变 长 编码 

"Latin-1' 也 被 称 为 ISO 8859-1 编码 

'cp-1252， Windows 常用 编码 

'unicode-escape' Python 中 Unicode 的 转 义 文本 格式 ，\uxxxx 或 者 \Uxxxxxxxx 


你 可 以 将 任何 Unicode 数据 以 UTF-8 的 方式 进行 编码 。 我 们 试 着 将 Unicode 字符 串 “\u2603， 
赋值 给 snowman 





>>> Snowman = "\U2603 
snownan 是 一 个 仅 包含 一 个 字符 的 Unicode 字符 串 ， 这 与 它 存储 所 需 的 字 节 数 没 有 任何 关系 : 


>>> len(snowman) 
1 


下 一 步 将 这 个 Unicode 字符 编码 为 字 节 序列 : 
>>> ds = snowman.encode('utf-8') 


就 像 我 之 前 提 到 的 ，UTF-8 是 一 种 变 长 编码 方式 。 在 这 个 例子 中 ， 单 个 Unicode 字符 
snowman 占用 了 3 字 节 的 空间 : 


>>> len(ds) 
3 
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>>> ds 


b'\xe2\x98\x83" 
现在 ，len() 返回 了 字 节 数 (3)， 因 为 ds 是 一 个 bytes 类 型 的 变量 。 


当然 ， 你 也 可 以 使 用 UTF-8 以 外 的 编码 方式 ， 但 该 Unicode 字符 串 有 可 能 无 法 被 指定 的 编 
码 方式 处 理 ， 此 时 Python 会 抛 出 异常 。 例 如 ， 如 果 你 想 要 使 用 ascii 方式 进行 编码 ， 必 须 
保证 竺 编码 的 字符 串 仅 包含 ASCII 字符 集 里 的 字符 ， 不 含有 任何 其 他 的 Unicode 字符 ， 否 
则 会 出 现 错 误 : 
>>> ds = snowman.encode('ascii') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


UnicodeEncodeError: 'ascii' codec can't encode character "\U2603 
in position 0: ordinal not in range(128) 


encode() 国 数 可 以 接受 额外 的 第 二 个 参数 来 帮助 你 避免 编码 异常 。 它 的 默认 值 是 
'strict'， 如 上 例 所 示 ， 当 国 数 检测 到 需要 处 理 的 字符 串 包 含 非 ASCII 字符 时 ， 会 抛 出 
UnicodeEncodeError 异常 。 当 然 ， 该 参数 还 有 别 的 可 选 值 ， 例 如 'ignore' 会 抛弃 任何 无 法 
进行 编码 的 字符 : 


>>> snowman.encode('ascii', 'ignore') 
四 


b 
































'reptace' 会 将 所 有 无 法 进行 编码 的 字符 赫 换 为 ?: 


>>> snowman.encode('ascii', 'replace') 
b'?" 





'backslashreplace' 则 会 创建 一 个 和 unicode-escape 类 似 的 Unicode 字符 串 : 


>>> snowman.encode('ascii', 'backslashreplace') 
b'\\y2603' 


如 果 你 需要 一 份 Unicode 转 义 符 序 列 的 可 打印 版 本 ， 可 以 考虑 使 用 上 面 这 种 方式 。 

















下 面 的 代码 可 以 用 于 创建 网 页 中 使 用 的 字符 实体 串 : 
>>> snowman.encode('ascii', 'xmlcharrefreplace') 
b'&#9731;' 

4. 解码 


解码 是 将 字 节 序列 转化 为 Unicode 字符 串 的 过 程 。 我 们 从 外 界 文本 源 文件、 数据 库 、 网 
站 、 网 络 API 等 ) 获得 的 所 有 文本 都 是 经 过 编码 的 字 节 串 。 重 要 的 是 需要 知道 它 是 以 何 种 
方式 编码 的 ， 这 样 才能 逆转 编码 过 程 以 获得 Unicode 字符 串 。 

问题 是 字 节 串 本 身 不 带 有 任何 指明 编码 方式 的 信息 。 之 前 我 也 提 到 过 从 网 站 随意 复制 粘贴 
文本 的 风险 ， 你 也 可 能 遇 到 过 网 页 乱码 的 情况 ， 本 应 是 ASCII 字符 的 位 置 却 被 奇怪 的 字符 
占据 了 ， 这 些 都 是 编码 和 解码 的 方式 不 一 致 导致 的 。 

创建 一 个 place 字符 串 ， 赋 值 为 “cafe ' : 














>>> place = 'c 
>>> place 
"cafe ' 

>>> type(place 
<class 'str'> 


af\u00e9' 


) 


将 它 以 UTF-8 格式 编码 为 bytes 型 变量 ， 命 名 为 place_bytes: 


>>> place_byte 
>>> place_byte 
b'caf\xc3\xa9' 
>>> type(place 
<class 'bytes' 


注意 ，place_bytes 


处 )， 最 后 两 个 字 节 用 于 编码 'e'  。 现 在 ， 将 字 节 串 转换 回 Unicode 字符 串 : 


>>> place2 = p 
>>> PLace2 
"Cafe ' 








s = place.encode('utf-8') 
s 


_bytes) 
> 


包含 5 个 字 节 。 前 3 个 字 节 的 内 容 与 ASCII 一样 (UTF-8 的 强大 之 








Hd 


lace_bytes.decode('utf-8') 





一 切 正常 ， 这 是 因为 编码 和 解码 使 用 的 都 是 UTF-8 格式 。 如 果 使 用 其 他 格式 进行 解码 会 发 








生 什么 ? 


>>> place3 = p 
Traceback (mos 
File "<stdin 





lace_bytes.decode('ascii') 
t recent call last): 
>", line 1, in <module> 


UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: 


ordinal not in 


ASCII 解码 器 会 抛 上 


range(128) 


异常 ， 因 为 字 节 值 9xc3 在 ASCI 编码 中 是 非法 值 。 对 于 另 一 些 使 用 8 








比特 编码 的 方式 而 言 ， 位 于 128 (十 六 进 制 88) 到 255 (十 六 进 制 FF) 之 间 的 8 比特 的 字 


符 集 可 能 是 合法 的 ， 


但 解码 得 到 的 结果 显然 与 UTF-8 不 同 : 


>>> place4 = place_bytes.decode('latin-1') 


>>> place4 
'cafAe' 
>>> place5 
>>> place5 
'cafAe' 


这 个 故事 告诉 我 们 : 


place_bytes.decode( 'windows-1252') 





尽 可 能 统一 使 用 UTF-8 编码 。 况 且 它 出 错 率 低 ， 兼 容 性 好 ， 可 以 表达 











所 有 的 Unicode 字符 ， 编 码 和 解码 的 速度 又 快 ， 这 人 么 多 优点 ， 何 乐 而 不 为 ? 


5. 更 多 内 容 





如 有 果 想 要 了 解 更 多 关于 Unicode 的 细节 ， 下 面 这 些 链 接 对 你 可 能 会 有 所 帮助 ; 


。 Unicode HOWTO (https://docs.python.org/3/howto/unicode.htm!l) 
。 Pragmatic Unicode (http:/nedbatchelder.comytextyunipain.html ) 











。 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know Abonut 


Unicode and Character Sets (No Excuses!) (http:/www.joelonsoftware.com/articles/Unicode. 


html) 
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7.1.2 ”格式 化 

之 前 几乎 都 没有 提 到 过 文本 格式 化 的 问题 ， 现 在 有 必要 关注 一 下 这 方面 的 内 容 了 。 第 2 章 
曾经 用 过 一 些 字 符 串 排版 函数 ， 那 些 示 例 代码 要 么 简单 地 使 用 print() 语句 ， 要 么 直接 在 
交互 式 解释 器 显示 。 现 在 是 时 候 看 看 如 何 使 用 不 同 的 格式 化 方法 将 变量 插值 (interpolate) 
到 字符 串 中 了 ， 即 将 变量 的 值 幅 入 字符 串 中 。 你 可 以 用 这 种 方法 来 生成 那些 格式 框架 看 起 
来 一 样 的 报告 或 者 其 他 固定 格式 的 输出 。 
Python 有 两 种 格式 化 字符 串 的 方式 ， 我 们 习惯 简单 地 称 之 为 旧式 (old style) 和 新 式 (new 
style) 。 这 两 种 方式 在 Python 2 和 Python 3 中 都 适用 (新 式 格 式 化 方法 适用 于 Python 2.6 及 
以 上 )。 旧 式 格式 化 相对 简单 些 ， 因 此 我 们 从 它 开始 。 

1. 使 用 % 的 旧式 格式 化 

旧式 格式 化 的 形式 为 string % data。 其 中 string 包含 的 是 待 插值 的 序列 。 表 7-2 展示 了 
最 简单 的 插值 序列 ， 它 仅 由 % 以 及 一 个 用 于 指定 数据 类 型 的 字母 组 成 。 

表 7-2: 转换 类 型 



























































%s 字符 串 

%d 十 进 制 整数 

%x 十 六 进 制 整数 

%o 八进制 整数 

%f 十 进 制 浮 点 数 

%e 以 科学 计数 法 表示 的 浮 点 数 

%g 十 进 制 或 科学 计数 法 表示 的 浮 点 数 

%% 文本 值 % 本 身 

下 面 是 一 些 简单 的 例子 。 首 先 格式 化 一 个 整数 . 














>>> '%s' % 42 
,42， 
>>> '%d' % 42 
,42， 
>>> '%x' % 42 
12a， 
>>> '%o' % 42 
452， 


接着 是 浮 点 数 : 


>>> '%s' % 7.03 
'7.03" 

>>> '%f' % 7.03 
“7.030000 

>>> '%e' % 7.03 
”7.030000e+00 
>>> '%g' % 7.03 
'7.03" 


整数 和 字面 值 %: 
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>>> '%d%%' % 100 














'100%" 

下 面 是 一 些 关于 字符 串 和 整数 的 插值 操作 : 
>>> actor = 'Richard Gere' 
>>> cat = 'Chester' 


>>> weight = 28 


>>> "My wife's favorite actor is %s" % actor 
"My wife's favorite actor is Richard Gere" 


>>> "Our cat %s weighs %s pounds" % (cat, weight) 
'Our cat Chester weighs 28 pounds' 


字符 串 内 的 %s 意味 着 需要 插入 一 个 字符 串 。 字 符 串 中 出 现 % 的 次 数 需 要 与 % 之 后 所 提供 的 
数据 项 个 数 相 同 。 如 果 只 需 插 入 一 个 数据 ， 例 如 前 面 的 actor, 直接 将 需要 插入 的 数据 置 于 
% 后 即 可 。 如 果 需 要 插入 多 个 数据 ， 则 需要 将 它们 封装 进 一 个 元 组 〈 以 圆 括号 为 界 ， 喜 号 
分 开 ) ， 例 如 上 例 中 的 (cat，weight)。 


尽管 weight 是 一 个 整数 ， 格 式 化 串 中 的 %s 也 会 将 它 转化 为 字符 串 型 。 
你 可 以 在 % 和 指定 类 型 的 字母 之 间 设 定 最 大 和 最 小 宽度 、 排 版 以 及 填充 字符 ， 等 等 。 
我 们 来 定义 一 个 整数 n、 一 个 序 点 数 f 以 及 一 个 字符 串 s: 























>>> n = 42 
>>> f = 7.03 
>>> s = 'string cheese' 


使 用 默认 宽度 格式 化 它们 : 


>>> '%d %f %s' % (n, f, s) 
'42 7.030000 string cheese' 


为 每 个 变量 设 定 最 小 域 宽 为 10 个 字符 ， 右 对 齐 ， 左 侧 不 够 用 空格 填充 : 


>>> '%10d %10f %10s' % (n, f, s) 
: 42 7.030000 string cheese' 


和 上 面 的 例子 使 用 同样 的 域 宽 ， 但 改 成 左 对 齐 : 


>>> '%-10d %-10f %-10s' % (n, f, s) 
'42 7.030000 string cheese' 


这 次 仍然 使 用 之 前 的 域 宽 ， 但 是 设 定 最 大 字符 宽度 为 4， 右 对 齐 。 这 样 的 设置 会 截断 超过 
长 度 限制 的 字符 串 ， 并 且 将 浮 点 数 的 精度 限制 在 小 数 点 后 4 位 : 


>>> '%10.4d %10.4f %10.4s' % (n, f, s) 
0042 7.0300 stri! 


去 掉 最 小 域 宽 为 10 的 限制 : 


>>> '%.4d %.4f %.4s' % (n, f, s) 
"0042 7.0300 stri' 
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最 后 ， 改 变 一 下 上 面 例子 的 硬 编码 方式 ， 将 域 完 、 字 符 宽度 等 设 定 作 为 参数 : 


>>> '%*.*d %*.*f %*.*s' % (10, 4, n, 10, 4, f, 10, 4, s) 
0042 7.0300 stri' 


2. 使 用 {} 和 format 的 新 式 格式 化 

旧式 格式 化 方式 现在 仍然 兼容 。Python 2 (将 永远 停止 在 2.7 版 本 ) 会 永远 提供 对 旧式 格式 
化 的 支持 。 然 而 ， 如 果 你 在 使 用 Python 3， 新 式 格式 化 更 值得 推荐 。 

新 式 格式 化 最 简单 的 用 法 如 下 所 示 : 


>>> '{} 人 1 .format(n，f，s) 
"42 7.03 string cheese' 


旧式 格式 化 中 传 入 参数 的 顺序 需要 与 % 占 位 符 出 现 的 顺序 完全 一 臻 ， 但 在 新 式 格式 化 里 ， 
可 以 自己 指定 插入 的 顺序 : 


>>> '{2} {0} {1}'.format(f, s, nN) 
'42 7.03 string cheese' 


9 代表 第 一 个 参数 f，1 代表 字符 串 s，2 代表 最 后 一 个 参数 ， 整 数 n。 
参数 可 以 是 字典 或 者 命名 变量 ， 格 式 串 中 的 标识 符 可 以 引用 这 些 名 称 : 


>>> '{n} {f} {s}'.format(n=42, f=7.03, s='string cheese') 
'42 7.03 string cheese' 

















下 面 的 例子 中 ， 我 们 试 着 将 之 前 作为 参数 的 3 个 值 存 到 一 个 字典 中 ， 如 下 所 示 : 
>>> d= {'n': 42, 'f': 7.03, 's': 'string cheese'} 
下 面 的 例子 中 ，{9] 代表 整个 字典 ，{1} 则 代表 字典 后 面 的 字符 串 'other' : 
































>>> '{0[n]} {0[f]} {0[s]} {1}'.format(d, 'other') 
'42 7.03 string cheese other 


上 面 这 些 例子 都 是 以 默认 格式 打印 结果 的 。 旧 式 格式 化 允许 在 % 后 指定 参数 格式 ， 但 在 新 
式 格式 化 里 ， 将 这 些 格式 标识 符 放 在 : 后 。 首 先 使 用 位 置 参 数 的 例子 : 


>>> '{0:d} {1:f} {2:s}'.format(n, f, s) 
'42 7.030000 string cheese' 


接着 使 用 相同 的 值 ， 但 这 次 它们 作为 命名 参数 : 


>>> '{n:d} {f:f} {s:s}'.format(n=42, f=7.03, s='string cheese') 
'42 7.030000 string cheese' 


新 式 格式 化 也 支持 其 他 各 类 设置 (最 小 域 宽 、 最 大 字符 宽 、 排 版 ， 等 等 )。 
下 面 是 一 个 最 小 域 宽 设 为 10、 右 对 齐 (默认 ) 的 例子 : 


>>> '{0:10d} {1:10f} {2:10s}'.format(n, f, s) 
' 42 7.030000 string cheese' 


























与 上 面 例子 一 样 ， 但 使 用 > 字符 设 定 右 对 齐 显然 要 更 为 直观 : 





>>> '{0:>10d} {1:>10f} {2:>10s}' .format(n，f，Ss) 
42 7.030000 string cheese' 


最 小 域 宽 为 10， 左 对 齐 : 


>>> '{0:<10d} {1:<10f} {2:<10s}' .format(n, f, s) 
'42 7.030000 string cheese' 


最 小 域 宽 为 10， 居 中 : 


>>> '{0:^10d} {1:^10f} {2:^10s}'.format(n, f, s) 
: 42 7.030000 string cheese' 

















新 式 格式 化 与 旧式 格式 化 相 比 有 一 处 明显 的 不 同 : 精度 (precision， 小 数 点 后 面 的 数字 ) 
对 于 泽 点 数 而 言 仍然 代表 着 小 数 点 后 的 数字 个 数 ， 对 于 字符 串 而 言 则 代表 着 最 大 字符 个 
数 ， 但 在 新 式 格 式 化 中 你 无 法 对 整数 设 定 精 度 : 


>>> '{0:>10.4d} {1:>10.4f} {2:10.4s}' .format(n，f，Ss) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: Precision not allowed in integer format specifier 
>>> '{0:>10d} {1:>10.4f} {2:>10.4s}'.format(n, f, s) 
42 7.0300 stri! 

















最 后 一 个 可 设 定 的 值 是 填充 字符 。 如 果 想 要 使 用 空格 以 外 的 字符 进行 填充 ， 只 需 把 它 放 
在 : 之 后 ， 其 余 任 何 排版 符 (<、>、^) 和 宽度 标识 符 之 前 即 可 : 


>>> '{0:!1^20s}' OFMat(, BIG SALE') 

















7.1.3 ”使 用 正则 表达 式 匹 配 

第 2 章 接 触 到 一 些 简单 的 字符 串 操 作 。 有 了 这 些 知识 ， 你 可 能 已 经 会 在 命令 行 里 使 用 一 些 
简单 的 “通配符 ”模式 了 ， 例 如 1s*.py， 这 条 命令 的 意思 是 “ 列 出 当前 目录 下 所 有 以 .py 
结尾 的 文件 名 ”。 

是 时 候 使 用 正则 表达 式 (regular expression) 探索 一 些 复杂 模式 匹配 的 方法 了 。 与 之 相关 
的 功能 都 位 于 标准 库 模块 re 中 ， 因 此 首先 需要 引用 它 。 你 需要 定义 一 个 用 于 匹配 的 模式 
(pattern) 字符 串 以 及 一 个 匹配 的 对 象 : 源 (source) 字符 串 。 简 单 的 匹配 ， 如 下 所 示 : 


result = re.match('You' ，'Young Frankenstein') 

















这 里 ，'You' 是 模式 ，'Young Frankenstein' 是 源 一 一 你 想 要 检查 的 字符 串 。match() 函数 
用 于 查看 源 是 否 以 模式 开头 。 
对 于 更 加 复杂 的 匹配 ， 可 以 先 对 模式 进行 编译 以 加 快 匹配 速度 : 

youpattern = re.CompiLe('You ') 


后 就 可 以 直接 使 用 编译 好 的 模式 进行 匹配 了 : 


result = youpattern.match('Young Frankenstein') 


match() 并 不 是 比较 source 和 pattern 的 唯一 方法 。 下 面 列 出 了 另外 一 些 可 用 的 方法 : 
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。 search() 会 返回 第 一 次 成 功 匹 配 ， 如 果 存 在 的 话 ; 

findall() 会 返回 所 有 不 重合 的 匹配 ， 如 果 存 在 的 话 ，; 

split() 会 根据 pattern 将 source 切 分 成 若干 段 ， 返 回 由 这 些 片 段 组 成 的 列表 ，; 

。 sub() 还 需 一 个 额外 的 参数 replacement， 它 会 把 source 中 所 有 匹配 的 pattern 改 成 


replacement。 


1. 使 用 match() 进 行 准确 匹配 
字符 串 'Young Frankenstein' 是 以 单词 "You' 开头 的 吗 ? 以 下 是 一 些 带 注释 的 代码 : 


>>> import re 

>>> Source = 'Young Frankenstein' 

>>> m = re.match('You' ，source) # 从 源 字 符 串 的 开头 开始 匹配 
>>> if m: # 匹配 成 功 返 回 了 对 象 ,将 它 输出 看 看 匹配 得 到 的 是 什么 
print(m.group()) 



































>>> m = re.match('^You' ，source) # 起 始 销 点 也 能 起 到 同样 作用 
>>> if m: 

print(m.group()) 

You 


尝试 匹配 'Frank' 又 会 如 何 ? 


>>> m = re.match('Frank', source) 
>>> if m: 
print(m.group()) 


这 一 次 ，match() 什么 也 没有 返回 ，if 也 没有 执行 内 部 的 print 语句 。 如 前 所 述 ，match() 
只 能 检测 以 模式 串 作 为 开头 的 源 字符 串 。 但 是 search() 可 以 检测 任何 位 置 的 匹配 : 


>>> m = re.search('Frank', source) 
>>> if m: 





print(m.group()) 
Frank 
改变 一 下 匹配 的 模式 : 


>>> m = re.match('.*Frank', source) 
>>> if m: # match 返 回 对 象 
print(m.group()) 





Young Frank 
以 下 是 对 新 模式 能 够 匹配 成 功 的 简单 解释 : 


。 . 代表 任何 单一 字符 ; 
。 * 代表 任意 一 个 它 之 前 的 字符 ，.* 代表 任意 多 个 字符 (包括 0 个 )， 
。 Frank 是 我 们 想 要 在 源 字符 串 中 某 处 进行 匹配 的 短语 。 


match() 返回 了 匹配 .*Frank 的 字符 串 : 'Young Frank'。 
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2. 使 用 search() 寻 找 首 次 匹配 
你 可 以 使 用 search() 在 源 字符 串 'Young Frankenstein' 的 任意 位 置 寻 找 模 式 'Frank' ， 无 
需 通 配 符 .*: 


>>> m = re.search('Frank', source) 
>>> if m: # search 返 回 对 象 
print(m.group()) 








Frank 
3. 使 用 findaLL() 寻 找 所 有 匹配 
之 前 的 例子 都 是 查找 到 一 个 匹配 即 停 止 。 但 如 果 想 要 知道 一 个 字符 串 中 出 现 了 多 少 次 字母 
'n' 应 该 怎么 办 ? 

>>> m = re.findall('n', source) 

>>> m  # findall 返 回 了 一 个 列表 

['n', 'n', 'n', 'n'] 

>>> print('Found', len(m), 'matches') 


Found 4 matches 


将 模式 改 成 'n' ， 紧 跟着 任意 一 个 字符 ， 结 果 又 如 何 ? 
>>> m = re.findall('n.', source) 
a 'nk', 'ns'] 
注意 ， 上 面 例子 中 最 后 一 个 'n' 并 没有 匹配 成 功 ， 需 要 通过 ? 说 明 'n' 后 面 的 字符 是 可 
选 的 : 
>>> m = re.findall('n.?', source) 
>>> mM 
['ng', 'nk', 'ns', 'n'] 
4. 使 用 spLit() 按 匹配 切 分 
下 面 的 示例 展示 了 如 何 依据 模式 而 不 是 简单 的 字符 串 〈 就 像 普通 的 split() 方法 做 的 ) 将 
一 个 字符 串 切 分 成 由 一 系列 子 串 组 成 的 列表 : 
>>> m = re.split('n', source) 
>>> m # split 返 回 的 列表 
['You', 'g Fra', 'ke', 'stei', ''] 
5. 使 用 sub() 替 换 匹 配 
这 和 字符 串 replace() 方法 有 些 类 似 ， 只 不 过 使 用 的 是 模式 而 不 是 文本 串 : 
>>> m = re.sub('n', '?', source) 
>>> m  # sub 返 回 的 字符 串 
'You?g Fra?ke?stei?' 
6. 模式 : 特殊 的 字符 
许多 书 中 关于 正则 表达 式 的 描述 都 是 从 如 何 定义 它 开 始 的 ， 我 觉得 这 不 太 符 合 学 习 的 远 
辑 。 正 则 表达 式 不 是 一 两 句 就 能 说 清楚 的 小 语言 ， 它 拥有 大 量 的 语言 细节 ， 会 完全 占据 你 
的 大 脑 让 你 无 所 适 从 。 它 使 用 的 符号 实在 是 太 多 了 ， 看 起 来 简直 就 像 是 幽灵 画 符 一 样 ! 
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像 高 手 一 样 玩 转 数据 | 139 








有 了 上 面 介绍 的 方法 (match()、search()、findall() 和 sub()) 做 铺垫 ,现在 可 以 从 应 用 
讲 起 并 研究 如 何 构造 正则 表达 式 了 ， 即 上 述 方法 中 的 模式 。 


已 经 见 过 的 一 些 基 本 模式 : 


。 普通 的 文本 值 代表 自 
。 使 用 . 代表 任意 除 \n 外 的 字符 ， 





。 使 用 * 表示 任意 多 个 字符 (包括 0 个 ) ; 
。 使 用 ? 表示 可 选 字符 (0 个 或 1 个 )。 





接 下 来 要 介绍 一 些 特殊 字符 ， 参 见 表 7-3。 


表 7-3: 特殊 字符 


身 ， 用 于 匹配 非特 殊 字符 ， 
































模式 匹配 

\d 一 个 数字 字符 

\D 一 个 非 数 字 字 符 

\Ww 一 个 字母 或 数字 字符 

N 一 个 非 字母 非 数 字 字 符 

\s 空白 符 

\S 非 空 白 符 

\b 单词 边界 (一 个 \w 与 W 之 间 的 范围 ， 顺 序 可 逆 ) 
\B 非 单词 边界 








Python 的 string 模块 中 预先 定义 了 一 些 可 供 我 们 测试 用 的 字符 串 





+: 沪 旧 


常量 。 我 们 将 使 用 其 中 











的 printable 字符 串 ， 它 包含 100 个 可 打印 的 ASCI 字符 ， 包 括 大 小 写字 母 、 数 字 、 空 格 


符 以 及 标点 符号 : 


>>> import string 
>>> 
>>> 


100 
>>> printable[0:50] 


len(printable) 


printable = string.printable 


"90123456789abcdefghijkLmnopqrstuvwxyzABCDEFGHIJKLNMN 


>>> printable[50:] 


'OPQRSTUVWXYZ 1 "#$%8&\' ()*+,-./:;<=>?@[\\]^ {I}~ \t\nNr\Xxgb\xgc' 


printable 中 哪些 字符 是 数字 ? 


>>> re.findall('\d', printable) 


[' 0，'1 '2', '3', '4', '5', '6', 





哪些 字符 是 数字 、 字 符 或 下 划 线 ? 


>>> re.findall('\w', printable) 
['90', Rs A 3 '4'， We 


'7'， 





哪些 属于 空格 符 ? 

>>> re.findall('\s', printable) 

[' ', '\t', '\n', '\r', '\xgb', '\xec'] 
正则 表达 式 不 仅仅 适用 于 ASCI 字符 ， 例 如 \d 还 可 以 匹配 Unicode 的 数字 字符 ， 并 不 
局 限于 ASCIT 中 的 '0' 到 '9'。 我 们 从 FileFormat.info (http://www.fileformat.info/info/ 
unicode/category/Lllist.htm) 中 引入 两 个 新 的 非 ASCII 编码 的 小 写字 母 。 


这 个 测试 例子 中 ， 在 模式 中 添加 以 下 内 容 : 

。 三 个 ASCII 字母 

。 三 个 不 会 被 \w 所 匹配 的 标点 符号 

。 Unicode 中 的 LATIN SMALL LETTER E WITH CIRCUMFLEX (\uggea) 
。 Unicode 中 的 LATIN SMALL LETTER E WITH BREVE (\u0115) 








1 


>>> x = 'abc 


与 预期 的 一 样 ， 应 用 这 个 模式 可 以 匹配 出 下 面 这 些 字母 


>>> re.findall('\w', x) 
['a', 'b', 'c', 'é', '&'] 


7. 模式 : 使 用 标识 符 

现在 试 着 用 表 7-4 中 所 包含 的 一 些 常用 的 模式 标识 符 来 亮 饪 一 道 “ 符 号 比萨 ”大 餐 。 
表 中 ，expr 和 其 他 斜体 的 单词 表示 合法 的 正则 表达 式 。 

表 7-4: 模式 标识 符 


+ '-/*' + Nu00ea' + “Nu0115 


















































模式 匹配 

abc 文本 值 abc 

(expr) expr 

exprl | expr2 exprl 或 expr2 

: 除 \n 外 的 任何 字符 

人 源 字符 串 的 开头 

$ 源 字符 串 的 结尾 

prev? 0 个 或 1 个 prev 

prev* 0 个 或 多 个 prev， 尽 可 能 多 地 匹配 
prev*? 0 个 或 多 个 prev， 尽 可 能 少 地 匹配 
prevt 1 个 或 多 个 prev， 尽 可 能 多 地 匹配 
Drev+? 1 个 或 多 个 prev， 尽 可 能 少 地 匹配 
prev{m} m 个 连续 的 prev 

prev{m, n} m 到 nn 个 连续 的 prev， 尽 可 能 多 地 匹配 
prev{m, n}? m 到 nn 个 连续 的 prev， 尽 可 能 少 地 匹配 
[abc] a 或 b 或 c (和 alblc 一 样 ) 

[^abc] 非 (a 或 bp 或 c) 
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模式 匹配 

prev (?=next) 如 果 后 面 为 next， 返 回 prev 
prev (? Inext) 如 果 后 面 非 next， 返 回 prev 
(?<=prev) next 如 果 前 面 为 prev， 返 回 next 
(?<!prev) next 如 果 前 面 非 prev， 返 回 next 





























在 看 下 面 的 例子 时 ， 你 可 能 需要 时 不 时 地 查阅 上 面 的 表格 。 先 来 定义 我 们 使 用 的 源 字 
符 串 : 


>>> source = '''I wish I may, I wish I might 
. Have a dish of fish tonight.'"' 


首先 ， 在 源 字符 串 中 检索 wish: 


>>> re.findall('wish', source) 
['wish', 'wish'] 


接着 ， 对 源 字符 串 任 意 位 置 查询 wish 或 者 fish: 
>>> re.findall('wish|fish', source) 
['wish', 'wish', 'fish'] 

从 字符 串 开头 开始 匹配 wish : 


>>> re.findall('^wish', source) 


[] 
从 字符 串 开头 开始 匹配 I wish. 


>>> re.findall('^I wish', source) 
['I wish'] 
从 字符 串 结尾 开始 匹配 fish: 


>>> re.findall('fish$', source) 


[] 
最 后 ， 从 字符 串 结尾 开始 匹配 fish tonight.: 

>>> re.findall('fish tonight.$', source) 

['fish tonight.'] 
^ 和 $ 叫 作 锚 点 (anchor) : ^ 将 搜索 域 定位 到 源 字 符 串 的 开头 ，$ 则 定位 到 末尾 。 上 面 例 
子 中 的 .$ 可 以 匹配 末尾 的 任意 字符 ， 包 括 句 号 ， 因 此 能 成 功 匹 配 。 但 更 准确 地 说 ， 上 函 
的 例子 应 该 使 用 转 义 符 将 . 转 义 为 句号 ， 这 才 是 我 们 真正 想 示 意 的 纯 文本 值 匹配 : 

>>> re.findall('fish tonight\.$', source) 

['fish tonight.'] 
接 下 来 查询 以 w 或 f 开头 ,后面 紧 接 着 ish 的 匹配 : 


>>> re.findall('[wf]ish', source) 
['wish', 'wish', 'fish'] 
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查询 以 若干 个 w、s 或 组 合 的 匹配 : 


>>> re.findall('[wsh]+', source) 
['w', ‘sh', w', 'sh', 'h', 'sh', 'sh', 'h'] 


查询 以 ght 开头 ， 后 面 紧 跟 一 个 非 数 字 非 字母 字符 的 匹配 : 
>>> re.findall('ght\W', source) 
['ght\n', 'ght.'] 
查询 以 I 开头， 后 面 跟着 wish 的 匹配 (wish 出 现 次 数 尽量 少 ) : 


>>> re.findall('I (?=wish)', source) 
['I', IT ] 


最 后 查询 以 wish 结尾 ， 前 面 为 工 的 匹配 (I 出 现 的 次 数 尽量 少 ) : 

>>> re.findall('(?<=I) wish', source) 

[' wish', ' wish'] 
有 时 ， 正 则 表达 式 的 语法 可 能 会 与 Python 本 身 的 语法 冲突 。 例 如 ， 我 们 期 望 下 面 例子 中 的 
模式 能 匹配 任何 以 fish 开头 的 词 : 


>>> re.findall('\bfish', source) 


[] 


为 什么 没有 匹配 成 功 ? 第 2 章 曾 提 到 ，Python 字符 串 会 使 用 一 些 特殊 的 转 义 符 。 例 如 上 重 
的 \b， 它 在 字符 串 中 代表 退 格 ， 但 在 正则 表达 式 中 ， 它 代表 一 个 单词 的 开头 位 置 。 因 此 ， 
把 Python 的 普通 字符 囊 用 作 正 则 表达 式 的 模式 串 时 需要 特别 注意 ， 不 要 像 上 面 一 样 与 转 义 
符 产 生 冲 突 。 或 者 在 任何 使 用 正则 表达 式 的 地 方 都 记 着 在 模式 串 的 前 面 添 加 字符 r， 这 样 
可 以 告诉 Python 这 是 一 个 正则 表达 式 ， 从 而 禁用 字符 串 转 义 符 ， 如 下 所 示 : 

>>> re.findall(r'\bfish', source) 

['fish'] 
8. 模式 : 定义 匹配 的 输出 
使 用 match() 或 search() 时 ， 所 有 的 匹配 会 以 m.group() 的 形式 返回 到 对 象 m 中 。 如 果 
你 用 括号 将 某 一 模式 包 右 起 来 ， 括 号 中 模式 匹配 得 到 的 结果 归 和 自己 的 group (无 名 称 ) 
中 ， 而 调用 m.groups() 可 以 得 到 包含 这 些 匹 配 的 元 组 ， 如 下 所 示 : 

>>> m = re.search(r'(. dish\b).*(\bfish)', source) 

>>> m.group() 

'a dish of fish' 


>>> m.groups() 
('a dish', 'fish') 


(?P< nane >expr) 这 样 的 模式 会 匹配 expr， 并 将 匹配 结果 存储 到 名 为 name 的 组 中 : 


>>> m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source) 
>>> m.group() 

'a dish of fish' 

>>> m.groups() 

('a dish', 'fish') 

>>> m.group('DISH') 
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"a dish' 
>>> m.group('FISH') 
'fish' 


7.2 二进制 数据 

处 理 文本 数据 比较 隐 汐 难 懂 (新 旧 格 式 化 、 正 则 表达 式 等 )， 而 处 理 二 进 制 数据 就 有 趣 多 了 。 
你 需要 了 解 像 字 节 序 (endianness， 电 脑 处 理 器 是 如 何 将 数据 组 织 存 储 为 字 节 的 ) 以 及 整数 
的 符号 位 (sign bit) 之 类 的 概念 。 你 可 能 需要 研究 二 进 制 文件 格式 、 网 络 包 等 内 容 ， 从 而 对 
其 中 的 数据 进行 提取 甚至 修改 。 本 节 将 了 解 到 Python 中 有 关 二 进 制 数 据 的 一 些 基本 操作 。 


7.2.1 字 节 和 字 节 数组 

Python 3 引入 了 下 面 两 种 使 用 8 比特 序列 存储 小 整数 的 方式 ， 每 8 比特 可 以 存储 从 0~255 
的 值 : 
。 字 节 是 不 可 变 的 ， 像 字 节 数据 组 成 的 元 组 ; 
。 字 节 数组 是 可 变 的 ， 像 字 节 数据 组 成 的 列表 。 


我 们 的 示例 从 创建 列表 blist 开始 。 接 着 需 使 用 这 个 列表 创建 一 个 bytes 类 型 的 变量 the_ 
bytes 以 及 一 个 bytearray 类 型 的 变量 the_byte_array: 




































































>> blist = [1, 2, 3, 255] 

>>> the_bytes = bytes(blist) 

>>> the_bytes 

b'\x01\x02\x03\xff" 

>>> the_byte _array = bytearray(blist) 
>>> the_byte_array 
bytearray(b'\x01\x02\x03\xff') 


bytes 类 型 值 的 表示 形式 比较 特殊 : 以 b 开头， 接着 是 一 个 单 引 号 ， 后 面 跟 
着 由 十 六 进 制 数 (例如 \x62) 或 ASCI 码 组 成 的 序列 ， 最 后 以 配对 的 单 引 号 
结束 。Python 会 将 这 些 十 六 进 制 数 或 者 ASCII 码 转换 为 整数 ， 如 果 该 字 节 的 
值 为 有 效 ASCII 编码 则 会 显示 ASCII 字符 。 

















>>> b'\x61' 
b'a' 


>>> b'\x01abc\xff' 
b'\x01abc\xff' 


下 面 的 例子 说 明了 bytes 类 型 的 不 可 变性 : 


>>> the_bytes[1] = 127 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'bytes' object does not support item assignment 


但 bytearray 类 型 的 变量 是 可 变 的 : 

















>>> the_byte_array = bytearray(blist) 
>>> the_byte_array 
bytearray(b'\x01\x02\x03\xff') 

>>> the_byte_array[1] = 127 

>>> the_byte_array 
bytearray(b'\x01\x7f\x03\xff') 


下 面 两 行 代 码 都 会 创建 一 个 包含 256 个 元 素 的 结果 ， 包 含 0~255 的 所 有 值 : 


>>> the_bytes = bytes(range(0, 256)) 
>>> the_byte_array = bytearray(range(0, 256)) 


打印 bytes 或 bytearray 数据 时 ，Python 会 以 \woex 的 形式 表示 不 可 打印 的 字符 ， 以 ASCII 
字符 的 形式 表示 可 打印 的 字符 〈 以 及 一 些 转 义 字符 ， 例 如 \n 而 不 是 \x6a)。 下 面 是 the_ 
bytes 的 打印 结果 (手动 设置 为 一 行 显示 16 个 字 节 ) : 


>>> the_bytes 
b'\x00\x01\x02\x03\x04\x0O5\x06\x07\x08\t\n\xOb\xOc\r\xOe\xOf 
\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1ia\x1b\xic\x1id\x1le\xif 
1"#$%8\'()*+,-./ 

0123456789: ;<=>? 

@ABCDEFGHIJKLMNO 

PQRSTUVWXYZ[\\]^_ 

‘abcdefghijklmno 

pqrstuvwxyz{|}~\x7f 
\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f 
\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f 
\xa0\xal\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf 
\xbO\xb1i\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf 
\xcO\xc1i\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf 
\xdO\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf 
\xe0O\xe1l\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef 
\xfo\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff' 


看 起 来 可 能 有 些 困惑 ， 毕 竟 上 面 输出 的 数据 是 字 节 (小 整数 ) 而 不 是 字符 。 


7.2.2 使 用 struct 转 换 二 进 制 数据 


如 你 所 见 ，Python 中 有 许多 文本 处 理工 具 模块、 函数 等 )， 然 而 处 理 二 进 制 数 据 的 工具 
则 要 少 得 多 。 标 准 库 里 有 一 个 struct 模块 ， 专 门 用 于 处 理 类 似 C 和 C++ 中 结构 体 的 数据 。 
你 可 以 使 用 struct 模块 的 功能 将 二 进 制 数据 转换 为 Python 中 的 数据 结构 。 

以 一 个 PNG 文件 (一 种 常见 的 图 片 格式 ， 其 他 图 片 格式 还 有 GIF、JPEG 等 ) 为 例 看 看 
struct 是 如 何 工作 的 。 我 们 来 编写 一 个 小 程序 ， 从 PNG 文件 中 获得 图 片 的 宽度 和 高 度 信 息 。 


使 用 O?Reilly 的 经 典 标志 : 一 只 睁 大 了 眼睛 的 眼镜 多， 见 图 7-1。 
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7-1: O'Reilly 的 标志 眼镜 猴 


你 可 以 在 Wikipedia (http:/upload.wikimedia.org/wikipedia/en/9/95/O?Reilly_logo.png) 上 获 
取 这 张 图 片 的 PNG 文件 。 第 8 章 之 前 都 不 会 讨论 读 取 文 件 的 方法 ， 因 此 这 里 我 仅仅 是 将 
这 个 文件 下 载 下 来 ， 并 编写 了 一 个 简单 的 小 程序 将 它 的 数据 以 字 节 形式 打印 出 来 ， 然 后 将 
起 始 的 30 字 节 数据 存 入 Pythonbytes 型 变量 data 中 ， 如 下 所 示 。 方 便 起 见 ， 你 只 需 复制 
这 部 分 数据 即 可 。(PNG 格式 规定 了 图 片 的 宽度 和 高 度 信息 存储 在 初始 24 字 节 中 ， 因 此 不 
需要 其 他 的 额外 数据 。) 


>>> import struct 

>>> valid_png_header = b'\x89PNG\r\n\x1ia\n’ 

>>> data = b'\x89PNG\r\n\x1la\n\x00\x00\xO0\rIHDR' + \ 

oe b'\x00\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xcO! 

>>> if data[:8] == valid_png_header: 
width, height = struct.unpack('>LL', data[16:24]) 
print('Valid PNG, width', width, 'height', height) 

. else: 

print('Not a valid PNG') 

















Valid PNG, width 154 height 141 
以 上 代码 说 明 : 


。 data 包含 了 PNG 文件 的 前 30 字 节 内 容 ， 为 了 书 的 排版 ， 我 将 这 30 字 节 数据 放 到 了 两 
行 字 节 串 中 ， 并 用 + 和 续 行 符 (\) 将 它们 连接 起 来 ; 

。 valid_png_header 包含 8 字 节 序列 ， 它 标志 着 这 是 一 个 有 效 的 PNG 格式 文件 ; 

。 width 值 位 于 第 16~20 字 节 ，heitght 值 则 位 于 第 21~24 字 节 。 


上 面 代码 中 的 >LL 是 一 个 格式 串 ， 它 用 于 指导 unpack() 正确 解读 字 节 序列 并 将 它们 组 装 成 
Python 中 的 数据 类 型 。 可 以 将 它 分 解 成 下 面 几 个 基本 格式 标志 : 


。 > 用 于 指明 整数 是 以 大 端 (big-endian) 方案 存储 的 ; 
。 每 个 | 代表 一 个 4 字 节 的 无 符号 长 (unsigned long) 整数 。 


你 可 以 直接 获取 4 字 市 数据 : 


>>> data[16:20] 

b'\x00\x00\x00\x9a' 
>>> data[20:24]0x9a 
b'\x090\Xx00\x00N\x8d ' 





















































大 端 方案 将 高 字 节 放 在 左 侧 。 由 于 宽度 和 高 度 都 小 于 255， 因 此 它们 存储 有 有 
序列 的 最 后 一 字 节 中 。 不 难 验证 ， 上 务 

















E 每 一 个 4 字 市 

















(图 片 的 宽 和 高 ) 一 致 : 


>>> 0Xx9a 
154 
>>> 0x8d 
141 




















i 的 十 六 进 制 数 转换 为 十 进 制 后 与 我 们 预期 的 数值 


如 果 想 要 执行 上 述 过 程 的 逆 过 程 ， 将 Python 数据 转换 为 字 节 ， 可 以 使 用 struct pack() 





函数 : 


>>> import struct 

>>> struct.pack('>L', 154) 
b'\x00\x00\x00\x9a! 

>>> struct.pack('>L', 141) 
b'\x00\x00\x00\x8d' 


表 7-5 和 表 7-6 列 出 了 pack() 和 unpack() 使 月 


首先 是 字 市 序 标识 符 。 
表 7-5: 字 节 序 标识 符 





标识 符 字 节 序 
< 小 端 方案 
> 大 端 方案 


表 7-6: 格式 标识 符 
标识 符 描述 





的 一 些 格 式 标识 符 。 


委 
起 




















x 跳 过 一 个 字 市 
b 有 符号 字 市 

B 无 符号 字 市 

h 有 符号 短 整数 
H 无 符号 短 整数 
i 有 符号 整数 

I 无 符号 整数 

1 有 符号 长 整数 
L 无 符号 长 整数 
Q 无 符号 long long 型 整数 
f 单 精度 浮 点 数 
d 双 精 度 浮 点 数 
p 数量 和 字符 

s 字符 


类 型 标识 符 紧 跟 在 字 市 序 标识 符 的 后 





匹配 的 数量 ， 例 如 5B 代表 BBBBB。 


Xif 二 co 上 ocoo 上 上 上 上 上 hb 一 一 一 


六 














Ld 
o 





E 何 标识 符 的 前 面 都 可 以 添加 数字 用 于 指定 需要 
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可 以 使 用 数量 前 级 改写 >LL: 


>>> struct.unpack('>2L', data[16:24]) 
(154, 141) 


之 前 的 例子 中 使 用 了 切片 data[16:24] 直接 获取 所 需 的 特定 字 节 ， 也 可 以 使 用 x 标识 符 来 
跳 过 不 需要 的 字 市 : 


>>> struct.unpack('>16x2L6x' , data) 
(154, 141) 


上 面 格式 串 的 含义 如 下 : 


。 使 用 大 端 方案 (>) 

。 跳 过 16 个 字 节 (16x) 

。 读 取 8 字 节 内 容 一 一 两 个 无 符号 长 整数 (2L) 
。 跳 过 最 后 6 个 字 节 (6x) 


7.2.3 ”其 他 二 进 制 数据 工具 
一 些 第 三 方 开源 包 提供 了 下 面 这 些 更 加 直观 地 定义 和 提取 二 进 制 数据 的 方法 : 
。 bitstring (https://code.google.com/p/python-bitstring/) 



































。 construct (http://construct.readthedocs.org/en/latest/ ) 
。 hachoir (https://bitbucket.org/haypo/hachoir/wiki/Home) 
。 binio (http://spika.net/py/binio/) 


你 可 以 在 附录 DD 查看 下 载 和 安装 外 部 包 的 详细 过 程 ， 这 里 不 再 痪 述 。 接 下 来 的 几 个 例子 需 
要 提前 安装 construct 包 ， 只 需 执行 下 面 这 行 代码 即 可 : 


$ pip install construct 


看 的 例子 展示 了 如 何 使 用 construct 从 之 前 的 data 中 提取 PNG 图 片 的 尺寸 : 


>>> from construct import Struct, Magic, UBInt32, Const, String 
>>> # 基于 https://github.com/construct 上 的 代码 修改 而 来 
>>> fmt = Struct('png', 
a Magic(b'\x89PNG\r\n\x1la\n'), 
UBINt32(' Length'), 
Const(String('type', 4), b'IHDR'), 
UBInt32('witdth' ) ， 
UBInt32('height ') 
i ) 
>>> data = b'\x89PNG\r\n\x1la\n\x00\x00\xO0\rIHDR' + \ 
b'\x00\x00\x00\x9a\xO0\x00\x00\x8d\x08\x02\x00\x00\x00\xcO! 
>>> result = fmt.parse(data) 
>>> print(result) 
Container: 
length = 13 
type = b'IHDR' 
width = 154 
height = 141 
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>>> print(result.width, result.height) 
154, 141 


7.2.4 ”使 用 binascii() 转 换 字 节 /字符 串 

标准 binascii 模块 提供 了 在 二 进 制 数据 和 多 种 字符 捉 表 示 (十 六 进 制 、 六 十 四 进 制 、 
uuencoded， 等 等 ) 之 间 转 换 的 函数 。 例 如 ， 下 面 的 小 例子 将 8- 字 节 的 PNG 头 打印 为 十 六 
进 制 值 的 形式 ， 而 不 是 Python 默认 的 打印 bytes 型 变量 的 方式 : 混合 使 用 ASCII 和 转 义 的 


\x xx。 























>>> import binascii 

>>> valid_png_header = b'\x89PNG\r\n\x1la\n' 
>>> print(binascii.hexlify(valid_png_header)) 
b'89504e470d0a1la0a' 


反 过 来 转换 也 可 以 : 


>>> print(binasciit.unhexLify(b'89504e470d0a1a0a ' ) ) 
b'\x89PNGNrNnN\x1laNn' 


7.2.5 位 运算 符 
Python 提供 了 和 C 语言 中 类 似 的 比特 级 运算 符 。 表 7-7 列 出 了 这 些 位 运算 符 并 附 上 了 整数 
a _ (十进制 5， 二 进 制 gobo1o1) 和 b (十 进 制 1， 二进制 9bb6901) 的 运算 示例 。 


表 7-7: 比特 级 整数 运算 符 
运算 符 描述。 示例 十 进 制 结果 ”二进制 结果 




















& 与 a&b 1 gb9001 
| 或 a | b 5 gb9101 
^ 异 或 a^b 4 0b0100 
翻转 ~a -6 取决 于 int 类 型 的 大 小 
<< 左 位 移 ”a << 1 10 gb1010 
>> 右 位 移 ”a >> 1 2 gb0010 





这 些 运算 和 第 3 章 的 集合 运算 有 些 类 似 。& 返回 两 个 运算 数 中 相同 的 比特 。| 返回 两 个 运 
算数 中 任意 一 者 有 效 的 比特 。^ 返回 仅 在 一 个 运算 数 中 有 效 的 比特 。~ 将 所 有 比特 翻转 。 
现代 计算 机 都 使 用 二 进 制 补 码 (two’s complement) 进行 运算 ， 其 中 整数 的 最 高 位 定义 为 
符号 位 (0 为 正 ，1 为 负 )， 因 此 翻转 操作 会 改变 运算 数 的 符号 。<< 和 >> 仅仅 将 比特 向 左 
或 向 右 移 动 ， 左 位 移 操作 相当 于 将 数字 乘 以 2， 右 位 移 操 作 相 当 于 将 数字 除 以 2。 


7.3 ”练习 


(1) 创建 一 个 Unicode 字符 串 mystery 并 将 它 的 值 设 为 '\U6601f4a9'。 打 印 mystery， 并 查 
看 mystery 的 Unicode 名 称 。 
(2) 使 用 UTF-8 对 mystery 进行 编码 ， 存 入 字 市 型 变量 pop_bytes， 并 将 它 打印 出 来 。 
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(3) 使 用 UTF-8 对 pop_bytes 进行 解码 ， 存 入 字符 串 型 变量 pop_string， 并 将 它 打 印 出 来 ， 
看 看 它 与 mystery 是 否 一 致 ? 
(4) 使 用 旧式 格式 化 方法 生成 下 面 的 诗句 ， 把 'roast beef'、'ham'、'head' 和 'cLam' 依次 
插入 字符 串 : 
My kitty cat likes %s, 
My kitty cat likes %s, 


My kitty cat fell on his %s 
And now thinks he's a %s. 


(5) 使 用 新 式 格式 化 方法 生成 下 面 的 套用 信 国 ， 将 下 面 的 字符 串 存 储 为 letter (后 面 的 练 
习 中 会 用 到 ) : 


Dear {salutation} {name}, 




















Thank you for your letter. We are sorry that our {product} {verbed} in your 
{room}. Please note that it should never be used ;in a {room}, especially 
near any {animals}. 


Send us your receipt and {amount} for shipping and handling. We will send 
you another {product} that, in our tests, is {percent}% less likely to 
have {verbed}. 


Thank you for your support. 


Sincerely, 
{spokesman} 
{job_title} 

(6) 创建 一 个 字典 response 包含 以 下 键 : 'salutaion'、'name'、'product'、'verved' ( 动 
词 过 去 式 )、'room'、'animals'、'amount'、'percent'、'spokesman' 以 及 'job_tittLe ' 。 
设 定 这 些 键 对 应 的 值 ， 并 打印 由 response 的 值 填充 的 Letter。 

0) 正 则 表达 式 在 处 理 文本 上 非常 方便 ， 在 这 个 练习 中 我 们 会 对 示例 文本 尝试 做 各 种 
各 样 的 操作 。 示 例文 本 是 一 首 诗 ， 名 为 Ode on the Mammoth Cheese， 作 者 是 James 
MclIntyre， 写 于 1866 年 。 出 于 对 当时 安大略 湖 手 工 制造 的 7000 磅 的 巨型 奶酪 的 敬意 ， 
它 当 时 其 至 在 爹 球 巡 回 展 出 。 如 果 你 不 愿意 自己 一 词 一 句 敲 出 来 ， 直 接 百 度 一 下 粘贴 
到 你 的 Python 代码 里 即 可 。 你 也 可 以 从 Project Gutenberg (http:/www.gutenberg.org/ 
ebooks/36068?msg=welcome_stranger) 找到 。 我 们 将 这 个 字符 串 命 名 为 mammoth。 






































We have seen thee，queen of cheese， 
Lying quietly at your ease， 

Gently fanned by evening breeze， 
Thy fair form no flies dare seize. 


ALL gaily dressed soon you'll go 
To the great Provincial show, 

To be admired by many a beau 

In the city of Toronto. 


Cows numerous as a Swarm of bees, 
Or as the Leaves Upon the trees, 





大 
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It did require to make thee please, 


And stand unrivalled, queen of cheese. 


May you not receive a scar as 

We have heard that Mr. Harris 
Intends to send you off as far as 
The great world's show at Paris. 


Of the youth beware of these， 
For some of them might rudeLy squeeze 


And bite your cheek，then songs or glees 
We could not sing, oh! queen of cheese. 


We'rt thou suspended from balloon, 
You'd cast a shade even at noon， 

Folks would think it was the moon 
About to fall and crush them soon. 


(8) 引入 re 模块 以 便 使 用 正则 表达 式 相关 国 数 。 使 用 re.findaLL() 打印 


单词 。 
(9) 找到 所 有 以 < 开头 的 4 个 字母 的 单词 。 
(10) 找到 所 有 以 上 结尾 的 单词 。 


(11) 找到 所 有 包含 且 仅 包含 3 个 元 音 的 单词 。 











tH 所 有 以 < 开关 的 


(12) 使 用 unhextify 将 下 面 的 十 六 进 制 串 〈 出 于 排版 原因 将 它们 拆 成 两 行 字符 串 ) 转换 为 








bytes 型 变量 ， 命 名 为 gif : 


'47494638396101000100800000000000ffffff21f9' + 
'0401000000002c000000000100010000020144003b"' 





(13) gif 定义 了 一 个 1 像素 的 透明 GIF 文件 

















(最 常见 的 图 片 格式 之 一 )。 合 法 的 GIF 文件 开 
头 由 GIF89a 组 成 ， 检 测 一 下 上 面 的 gif 是 否 为 合法 的 GIF 文件 





or 





(14) GIF 文件 的 像素 宽度 是 一 个 16 比特 的 以 大 端 方案 存储 的 整数 ， 偏 移 量 为 6 字 市 ， 高 度 
数据 的 大 小 与 之 相同 ， 偏 移 量 为 8。 从 gif 中 抽取 这 些 信息 并 打印 出 来 ， 看 看 它们 是 





否 与 预期 的 一 样 都 为 1? 





像 高 手 一 样 玩 转 数 据 
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数据 的 归案 


“在 没有 事实 〈 数 据 ) 作为 参考 的 情况 下 妄 下 结论 是 个 可 怕 的 错误 。” 
一 一 阿 瑟 柯南: 道 尔 

一 个 运行 中 的 程序 会 存 取 放 在 随机 存 取 存储 器 (RAM) 上 的 数据 。RAM 读 取 速度 快 ， 但 
价格 昂贵 ， 需 要 持续 供电 ， 断 电 后 保存 在 上 面 的 数据 会 自动 消失 。 磁 盘 速 度 比 RAM 慢 ， 
但 容量 大 、 费 用 低廉 并 且 多 次 插 拔 电源 线 仍 可 保持 数据 。 因 此 ， 计 算 机 系统 在 数据 存储 设 
计 中 做 出 很 大 的 努力 来 权衡 磁盘 和 RAM。 程 序 员 需 要 在 非 易 失 性 介质 (例如 磁盘 ) 上 做 
持久 化 存储 和 检索 数据 。 
本 章 会 涉及 不 同类 型 的 数据 存储 ， 它 们 基于 不 同 的 目的 进行 优化 : 普通 文件 、 结 构 化 文件 
和 数据 库 。 除 了 输入 和 和 输出， 文件 操作 都 会 在 10.1 市 讲 到 。 

本 章 也 是 第 一 次 讲 到 非 标准 的 Python 模块 ， 也 就 是 除了 标准 库 之 外 的 Python 

代码 。 你 可 以 通过 pip 命令 轻松 地 安装 这 些 第 三 方 库 ， 更 多 的 使 用 细节 详 见 

附录 D。 


8.1 文件 输入 /输出 


数据 持久 化 最 简单 的 类 型 是 普通 文件 ， 有 了 时 也 叫 平面 文件 (flat file)。 它 仅仅 是 在 一 个 文件 
名 下 的 字 贡 流 ， 把 数据 从 一 个 文件 读 入 内 存 ， 然 后 从 内 存 写 入 文件 。Python 很 容易 实现 这 
些 文件 操作 ， 它 模仿 熟悉 的 和 流行 的 Unix 系统 的 操作 。 

读 写 一 个 文件 之 前 需要 打开 它 : 


fileobj = open(filename, mode) 
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再 是 对 该 open() 调用 的 简单 解释 : 

。 fileobj 是 open() 返回 的 文件 对 象 ， 

。 filename 是 该 文件 的 字符 串 名 ， 

。 mode 是 指明 文件 类 型 和 操作 的 字符 串 。 

mode 的 第 一 个 字母 表明 对 其 的 操作 。 

。r 表示 读 模式 。 

。 Ww 表示 写 模式 。 如 果 文 件 不 存在 则 新 创建 ， 如 果 存 在 则 重 写 新 内 容 。 
。 x 表示 在 文件 不 存在 的 情况 下 新 创建 并 写 文 件 。 
。 a 表示 如 果 文 件 存在 ， 在 文件 末尾 追加 写 内 容 。 


mode 的 第 二 个 字母 是 文件 类 型 : 


。 t (或 者 省 略 ) 代表 文本 类 型 ， 
。 b 代表 二 进 制 文件 。 


打开 文件 之 后 就 可 以 调用 函数 来 读 写 数据 ， 之 后 的 例子 会 涉及 。 
最 后 需要 关闭 文件 。 
接 下 来 在 一 个 程序 中 用 Python 字符 串 创建 一 个 文件 ， 然 后 返回 。 


8.1.1 使 用 write() 写 文本 文件 
出 于 一 些 原因 ， 我 们 没有 太 多 的 关于 狭义 相对 论 的 五 行 打油诗 (limerick') 。 下 面 这 首 作为 
源 数据 : 


>>> poem = '''There was a young lady named Bright, 
. Whose speed was far faster than light; 
. She started one day 
.In a relative way, 

... And returned on the previous night. 

>>> len(poem) 

150 


以 下 代码 将 整 首 诗 写 到 文件 'relativity' 中 : 


>>> fout = open('relativity', 'wt') 
>>> fout.write(poem) 

150 

>>> fout.close() 


国 数 write() 返回 写 入 文件 的 字 节 数 。 和 print() 一 样 ， 它 没有 增加 空格 或 者 换行 符 。 同 
样 ， 你 也 可 以 在 一 个 文本 文件 中 使 用 print(): 
>>> fout = open('relativity', 'wt') 


>>> print(poem, file=fout) 
>>> fout.close() 


才 















































注 1: 一 种 通俗 幽默 的 短 诗 。 一 一 译 者 注 
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这 就 产生 了 一 个 问题 : 到 底 是 使 用 write() 还 是 print() ? print() 默认 会 在 每 个 参数 后 
面 添加 空格 ， 在 每 行 结束 处 添加 换行 。 在 之 前 的 例子 中 ， 它 在 文件 relativity 中 默认 添 
加 了 一 个 换行 。 为 了 使 print() 与 write() 有 同样 的 输出 ， 传 入 下 面 两 个 参数 。 


。 sep 分 隔 符 : 默认 是 一 个 空格 ，， 
。 end 结束 字符 : 默认 是 一 个 换行 符 '\n' 


除非 自 定义 参数 ， 否 则 print() 会 使 用 默认 参数 。 在 这 里 ， 我 们 通过 空 字 符 串 蔡 换 print() 
添加 的 所 有 多 余 输 出 : 


>>> fout = open('relativity', 'wt') 
>>> print(poem, file=fout, sep='', end="'') 
>>> fout.close() 


如 果 源 字符 串 非 常 大 ， 可 以 将 数据 分 块 ， 直 到 所 有 字符 被 写 入 : 


>>> fout = open('relativity', 'wt') 

>>> size = len(poem) 

>>> offset = 0 

>>> chunk = 100 

>>> while True: 
if offset > size: 

break 

fout.write(poem[offset:offset+chunk]) 
offset += chunk 





























100 
50 
>>> fout.close() 


一 次 写 入 100 个 字符 ， 然 后 写 入 剩 下 的 50 个 字符 。 
如 果 'relativity' 文件 已 经 存在 ， 使 用 模式 x 可 以 避免 重 写 文 件 : 








>>> fout = open('relativity', 'xt') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
FileExistsError: [Errno 17] File exists: 'relativity' 


可 以 加 入 一 个 异常 处 理 : 


>>> try: 
fout = open('relativity', 'xt') 
fout.write('stomp stomp stomp') 
. except FileExistsError: 
print('relativity already exists!. That was a close one.') 


relativity already exists!. That was a close one. 


8.1.2 使 用 read()、readline() 或 者 readlines() 读 文本 文件 


你 可 以 按照 下 面 的 示例 那样 ， 使 用 不 带 参数 的 read() 函数 一 次 读 入 文件 的 所 有 内 容 。 但 在 
读 入 文件 时 要 格外 注意 ，1 GB 的 文件 会 用 到 相同 大 小 的 内 存 。 


























>>> fin = open('relativity', 'rt' ) 
>>> poem = fin.read() 

>>> fin.close() 

>>> len(poem) 

150 


同样 也 可 以 设置 最 大 的 读 入 字符 数 限制 read() 函数 一 次 返回 的 大 小 。 下 面 一 次 读 入 100 个 








字符 ， 然 后 把 每 一 块 拼接 成 原来 的 字符 串 poem: 


11 


>>> poem = 
>>> fin = open('relativity', 'rt' ) 
>>> chunk = 100 
>>> while True: 

fragment = fin.read(chunk) 

if not fragment: 

break 
poem += fragment 


>>> fin.close() 
>>> len(poem) 
150 























读 到 文件 结尾 之 后 ， 再 次 调用 read() 会 返回 空 字符 串 ('')，if not fragment 条 件 被 判 为 
False。 此 时 会 跳出 while True 的 循环 。 当然， 你 也 能 使 用 readtLine() 每 次 读 入 文件 的 一 








行 。 在 下 一 个 例子 中 ， 通 过 追加 每 一 行 拼接 成 原来 的 字符 串 poem， 


11 


>>> poem = 
>>> fin = open('relativity', 'rt' ) 
>>> while True: 
line = fin.readline() 
if not line: 
break 
poem += line 


>>> fin.close() 
>>> len(poem) 
150 








对 于 一 个 文本 文件 ， 即 使 空 行 也 有 1 字符 长 度 (换行 字符 '\n')， 自 然 就 会 返回 True。 当 
文件 读 取 结 束 后 ，readline() (类 似 read()) 同样 会 返回 空 字符 串 ， 也 被 white True 判 








为 False。 





读 取 文 本 文件 最 简单 的 方式 是 使 用 一 个 迭代 器 (iterator) ， 它 会 每 次 返回 一 行 。 这 和 之 前 的 





例子 类 似 ， 但 代码 会 更 短 : 


>>> poem = 
>>> fin = open('relativity', 'rt' ) 
>>> for line in fin: 

poem += line 


>>> fin.close() 
Len(poem) 


>>. 


150 


V 
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] 单 个 字符 串 poem。 国 数 readlines() 调用 时 每 次 读 取 一 





互 








前 面 所 有 的 示例 最 终 都 返 
返回 单行 字符 串 的 列表 : 


>>> fin = open('relativity', 'rt' ) 
>>> lines = fin.readlines() 
>>> fin.cLose() 
>>> print(len(lines), 'lines read') 
5 lines read 
>>> for line in lines: 

print(line, end="'') 





There was a young lady named Bright, 
Whose speed was far faster than light; 
She started one day 

In a relative way, 

And returned on the previous night.>>> 


之 前 我 们 让 print() 去 掉 每 行 结束 的 自动 换行 ， 因 为 前 面 的 四 行 都 有 换行 标志 ， 而 
行 没 有 ， 所 以 导致 解释 器 的 提示 符 >>> 出 现在 最 后 一 行 的 最 右边 。 


8.1.3 使 用 write() 写 二 进 制 文件 
如 果 文 件 模式 字符 串 中 包含 'b' ， 那 么 文件 会 以 二 进 制 模式 打开 。 这 种 情况 下 ， 读 
字 节 而 不 是 字符 串 。 

我 们 手边 没有 二 进 制 格式 的 诗 ， 所 以 直接 在 0~255 产生 256 字 节 的 f 


>>> bdata = bytes(range(0，256)) 
>>> len(bdata) 
256 


以 二 进 制 模式 打开 文件 ， 并 且 一 次 写 入 所 有 的 数据 : 


>>> fout = open('bfile', 'wb') 
>>> fout.write(bdata) 

256 

>>> fout.close() 


再 次 ，write() 返回 到 写 入 的 字 节 数 。 
对 于 文本 ， 也 可 以 分 块 写 二 进 制 数据 : 


>>> fout = open('bfile', 'wb') 

>>> size = len(bdata) 

>>> offset = 0 

>>> Chunk = 100 

>>> while True: 
if offset > size: 

break 

fout.write(bdata[offset:offset+chunk]) 
offset += chunk 



































TI 




















100 
100 
56 
>>> fout.close() 


下 


行 ， 并 





最 后 一 


写 的 是 





156 | 第 8 章 


8.1.4 使 用 read() 读 二 进 制 文件 
下 面 简单 的 例子 只 需要 用 'rb' 打开 文件 即 可 : 


>>> fin = open('bfile', 'rb') 
>>> bdata = fin.read() 

>>> len(bdata) 

256 

>>> fin.cLose() 


8.1.5 ”使 用 with 自动 关闭 文件 


如 果 你 忘记 关闭 已 经 打开 的 一 个 文件 , 在 该 文件 对 象 不 再 被 引用 之 后 Python 会 关 掉 此 文 
件 。 这 也 就 意味 着 在 一 个 函数 中 打开 文件 ， 没 有 及 时 关闭 它 ， 但 是 在 函数 结束 时 会 被 关 
掉 。 然 而 你 可 能 会 在 一 直 运 行 中 的 函数 或 者 程序 的 主要 部 分 打开 一 个 文件 ， 应 该 强制 剩 下 
的 所 有 写 操 作 完 成 后 再 关闭 文件 。 

Python 的 上 下 文 管理 器 (context manager) 会 清理 一 些 资源 ， 例 如 打开 的 文件 。 它 的 形式 


为 with expression as variable. 















































>>> with open('relativity', 'wt') as fout: 
fout .write(poem) 





完成 上 下 文 管理 器 的 代码 后 ， 文 件 会 被 自动 关闭 。 


8.1.6 使 用 seek() 改 变 位 置 
无 论 是 读 或 者 写 文件 ，Python 都 会 跟踪 文件 中 的 位 置 。 函 数 teLL() 返回 距离 文件 开始 处 
的 字 节 偏 移 量 。 国 数 seek() 允许 跳 转 到 文件 其 他 字 市 偏 移 量 的 位 置 。 这 意味 着 可 以 不 用 从 
头 读 取 文 件 的 每 一 个 字 节 ， 直 接 跳 到 最 后 位 置 并 只 读 一 个 字 节 也 是 可 行 的 。 
对 于 这 个 例子 ， 使 用 之 前 写 过 的 256 字 节 的 二 进 制 文件 'bfile': 
>>> fin = open('bfile', 'rb') 
>>> fin.tell() 
0 
使 用 seek() 读 取 文 件 结束 前 最 后 一 个 字 节 
>>> fin.seek(255) 
255 
一 直 读 到 文件 结束 : 


>>> bdata = fin.read() 
>>> len(bdata) 

1 

>>> bdata[0] 

255 


seek() 同样 返回 当前 的 偏 移 量 。 
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用 第 二 个 参数 调用 函数 seek(): seek(offset ,origin)。 


。 如 果 origin 等 于 0 (默认 为 96)， 从 开头 偏 移 offset 个 字 节 ， 
。 如 果 origin 等 于 1， 从 当前 位 置 处 偏 移 offset 个 字 节 ， 
。 如 果 origin 等 于 2， 距 离 最 后 结尾 处 偏 移 offset 个 字 节 。 


这 些 值 也 在 标准 os 模块 中 被 定义 : 


>>> import os 
>>> 0S.9EEK_SET 
0 

>>> 0S.9EEK_CUR 
1 

>>> os.SEEK_END 
2 


所 以 ， 我 们 可 以 用 不 同 的 方法 读 取 最 后 一 个 字 节 
>>> fin = open('bfile', 'rb') 
文件 结尾 前 的 一 个 字 市 ; 


>>> fin.seek(-1, 2) 
255 

>>> fin.tell() 

255 


一 直 读 到 文件 结尾 : 


>>> bdata = fin.read() 
>>> len(bdata) 





>>> bdata[0] 


在 调用 seek() 函数 时 不 需要 额外 调用 teLL()。 前 面 的 例子 只 是 想 说 明 两 个 
函数 都 可 以 返回 同样 的 偏 移 量 。 








下 面 是 从 文件 的 当前 位 置 寻找 的 例子 : 
>>> fin = open('bfile', 'rb') 
接 下 来 的 例子 返回 最 后 两 个 字 市 : 


>>> fin.seek(254, 0) 
254 

>>> fin.tell() 

254 


在 此 基础 上 前 进 一 个 字 节 : 

















>>> fin.seek(1, 1) 
255 

>>> fin.tell() 

255 


最 后 一 直 读 到 文件 结尾 : 


这 
时 ， 也 可 以 使 用 它们 ,但 是 计算 偏 移 量 会 是 一 件 麻 烦 事 。 其 实 ， 这 些 都 取决 于 文本 的 编码 


>>> bdata = fin.read() 
>>> Len(bdata) 

1 

>>> bdata[0] 

255 


些 函 数 对 于 二 进 制 文件 都 是 极其 重要 的 。 当 文件 是 ASCII 编码 (每 个 字符 一 个 字 节 ) 














格式 ， 最 流行 的 编码 格式 (例如 UTF-8) 每 个 字符 的 字 节 数 都 不 尽 相同 。 


8.2 ”结构 化 的 文本 文件 


对 于 简单 的 文本 文件 ， 唯 一 的 结构 层次 是 间隔 的 行 。 然 而 有 时 候 需 要 更 加 结构 化 的 文本 ， 
用 于 后 续 使 用 的 程序 保存 数据 或 者 向 另外 一 个 程序 传送 数据 。 








结构 化 的 文本 有 很 多 格式 ， 区 别 它们 的 方法 如 下 所 示 。 





分 陪 符 ， 比 如 tab ('\t')、 逗 号 (',') 或 者 竖 线 ('| ' )。 去 号 分 隔 值 (CSV) 就 是 这 
样 的 例子 。 

< 和 >' 标签 ， 例 如 XML 和 HTML。 

标点 符号 ， 例 如 JavaScript Object Notation (JSON” ) 。 

缩 进 , 例如 YAML ( 即 YAML Ain't Markup Language 的 缩写 ) , 要 了 解 更 多 可 以 去 搜索 。 
混合 的 ， 例 如 各 种 配置 文件 。 





每 一 种 结构 化 文件 格式 都 能 够 被 至 少 一 种 Python 模块 读 写 。 


8.2.1 CSV 

带 分 隔 符 的 文件 一 般 用 作 数 据 交 换 格式 或 者 数据 库 。 你 可 以 人 工读 入 CSV 文件 ， 每 一 次 
读 取 一 行 ， 在 喜 号 分 隔 符 处 将 每 行 分 开 ， 并 添加 结果 到 某 些 数据 结构 中 ， 例 如 列表 或 者 字 
典 。 但 是 ， 最 好 使 用 标准 的 csv 模块 ， 因 为 这 样 切 分 会 得 到 更 加 复杂 的 信息 。 














除了 逗号 ， 还 有 其 他 可 代替 的 分 隔 符 :'|' 和 '\t' 很 常见 。 

有 些 数据 会 有 转 义 字符 序列 ， 如 果 分 隔 符 出 现在 一 块 区 域内 ， 则 整 块 都 要 加 上 引号 或 者 
在 它 之 前 加 上 转 义 字符 。 
文件 可 能 有 不 同 的 换行 符 ，Unix 系统 的 文件 使 用 '\n'，IMicrosoft 使 用 '\r\n'，Apple 
之 前 使 用 '\r' 而 现在 使 用 '\n'。 

在 第 一 行 可 以 加 上 列 名 。 

















注 








E 2: JSON 是 一 种 轻 量 级 的 数据 交换 格式 ， 它 是 基于 JavaScript 的 一 个 子 集 。 一 一 译 者 注 
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首先 读 和 写 一 个 列表 的 行 ， 每 一 行 包 含 很 多 列 : 


>>> import CSV 

>>> villains = [ 
['Doctor', 'No'], 
['Rosa', 'Klebb'], 
['Mister', 'Big'], 
['Auric', 'Goldfinger'], 
['Ernst', 'Blofeld'], 


>>> with open('villains'，'wt') as fout: # 一 个 上 下 文 管理 器 
csvout = csv.writer(fout) 
csvout.writerows(villains) 


于 是 创建 了 包含 以 下 几 行 的 文件 villains: 


Doctor ,No 
Rosa,KLebb 
Mister ,Big 
Auric,Goldfinger 
Ernst,Blofeld 


现在 ， 我 们 来 重新 读 这 个 文件 : 


>>> import CSV 

>>> with open('villains'，'rt') as fin: # 一 个 上 下 文 管理 器 
cin = csv.reader(fin) 
villains = [row for row in cin] # 使 用 列表 推导 式 


























ss print(villains) 

[['Doctor', 'No'], ['Rosa', 'Klebb'], ['Mister', 'Big'], 

['Auric', 'Goldfinger'], ['Ernst', 'Blofeld']] 
停 下 来 想 想 列表 推导 式 (随时 打开 4.6 节 ， 温习 一 下 它 的 语法 )。 我 们 利用 函数 reader() 
创建 的 结构 ， 它 在 通过 for 循环 提取 到 的 cin 对 象 中 构建 每 一 行 。 
使 用 reader() 和 writer() 的 默认 操作 。 每 一 列 用 逗号 分 开 ， 每 一 行 用 换行 符 分 开 。 
数据 可 以 是 字典 的 集合 (a list of dictionary)， 不 仅仅 是 列表 的 集合 (a list of list)。 这 次 使 
用 新 国 数 DictReader() 读 取 文件 villains， 并 且 指 定 每 一 列 的 名 字 : 











>>> import CSV 

>>> with open('villains', 'rt') as fin: 
cin = csv.DictReader(fin, fieldnames=['first', 'last']) 
villains = [row for row in cin] 


>>> print(villains) 

[{'last': 'No', 'first': 'Doctor'}, 
{'last': 'Klebb', 'first': 'Rosa'}, 
{'last': 'Big', 'first': 'Mister'}, 
{'last': 'Goldfinger', 'first': 'Auric'}, 
{'last': 'Blofeld', 'first': 'Ernst'}] 


下 面 使 用 新 函数 Dictwriter() 重 写 CSV 文件 ， 同 时 调用 writeheader() 向 CSV 文件 中 第 
一 行 写 入 每 一 列 的 名 字 : 
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import csv 

villains = [ 
{'first': 'Doctor', 'last': 'No'}, 
{'first': 'Rosa', 'last': 'Klebb'}, 
{'first': 'Mister', 'last': 'Big'}, 
{'first': 'Auric', 'last': 'Goldfinger'}, 
{'first': 'Ernst', 'last': 'Blofeld'}, 
] 

with open('villains', 'wt') as fout: 
cout = csv.DictWriter(fout, ['first', 'last']) 
cout.writeheader() 
cout.writerows(villains) 


于 是 创建 了 具有 标题 行 的 新 文件 villains: 


fiLrst,Last 
Doctor ,No 

Rosa ,KLebb 
MiLster ,Big 
Auric,Goldfinger 
Ernst,BLofeLd 











回 过 来 再 读 取 写 人 的 文件 ， 忽 略 国 数 DictReader() 调用 的 参数 fieLdnames， 把 第 一 行 的 值 


(first,Last) 作为 列 标签 ， 和 字典 的 键 做 匹配 : 


>>> import CSV 

>>> with open('villains', 'rt') as fin: 
cin = csv.DictReader (fin) 
villains = [row for row in cin] 


>>> print(villains) 

[{ Last': 'No', 'first': 'Doctor'}, 
{'last': 'Klebb', 'first': 'Rosa'}, 
{'last': 'Big', 'first': 'Mister'}, 
{'last': 'Goldfinger', 'first': 'Auric'}, 
{'last': 'Blofeld', 'first': 'Ernst'}] 


8.2.2 XML 








方法 把 层次 结构 、 序 列 、 集 合 和 其 他 的 结构 编码 成 文本 。 











IT 





带 分 隔 符 的 文件 仅 有 两 维 的 数据 : 行 和 列 。 如 果 你 想 在 程序 之 间 交 换 数 据 结构 ， 需 要 一 种 


XML 是 最 突出 的 处 理 这 种 转换 的 标记 (markup) 格式 ， 它 使 用 标签 (tag) 分 隔 数 据 ， 如 











下 面 的 示例 文件 menu.xml 所 示 : 


<?xml version="1.0"?> 
<menu> 
<breakfast hours="7-11"> 
<item price="$6.00">breakfast burritos</item> 
<item price="$4.00">pancakes</item> 
</breakfast> 
<Lunch hours="11-3"> 
<item price="$5.00">hamburger</item> 
</Lunch> 
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<dinner hours="3-10"> 
<item price="8.00">spaghetti</item> 





</dinner> 
</menu> 
以 下 是 XML 的 一 些 重要 特性 : 
。 标签 以 一 个 < 字符 开头 ， 例 如 示例 中 的 标签 menu、breakfast、Lunch、dinner 和 item; 
忽略 空 s 格 ; 


。 通常 一 个 开始 标签 (例如 <menu>) 跟 一 段 其 他 的 内 容 ， 然 后 是 最 后 相 匹 配 的 结束 标签 
例如 </menu>， 

。 标签 之 间 是 可 以 存在 多 级 嵌 套 的 ， 在 本 例 中 ， 标 签 iten 是 标签 breakfast、Lunch 和 
dinner 的 子 标签 ， 反 过 来 ， 它 们 也 是 标签 menu 的 子 标签 ， 

。 可 选 属性 (attribute) 可 以 出 现在 开始 标签 里 ， 例 如 price 是 iten 的 一 个 属性 ; 

。 标签 中 可 以 包含 值 (value)， 本 例 中 每 个 iten 都 会 有 一 个 值 ， 比 如 第 二 个 breakfast item 
的 pancakes ; 

。 如 果 一 个 命名 为 thing 的 标签 没有 内 容 或 者 子 标签 ， 它 可 以 用 一 个 在 右 尖 括号 的 前 面 添 
加 斜 杠 的 简单 标签 所 表示 ， 例 如 <thing/> 代 赫 开始 和 结 吉 束 都 存在 的 标签 <thing> 和 </ 
thing>; 

。 存放 数据 的 位 置 可 以 是 任意 的 一 一 属性 、 值 或 者 子 标签 。 例 如 也 可 以 把 最 后 一 个 item 
标签 写作 <item price ="$8.00" food ="spaghetti"/>。 


XML 通常 用 于 数据 传送 和 消息 ， 它 存在 一 些 子 格式 ， 如 RSS 和 Atom。 工 业界 有 许多 定 
制 化 的 XML 格式 ， 例 如 金融 领域 (http:/www.service-architecture.comyarticles/xml/finance 
xml.html ) 。 


XML 的 灵活 性 导致 出 现 了 很 多 方法 和 性 能 各 异 的 Python 库 。 


在 Python 中 解析 XML 最 简单 的 方法 是 使 用 ElementTree， 下 面 的 代码 用 来 解析 menu.xml 
文件 以 及 输出 一 些 标签 和 属性 : 


>>> import xmL.etree.ELementTree as et 
>>> tree = et.ElementTree(file='menu.xml') 
>>> root = tree.getroot() 
>>> root.tag 
"menu 
>>> for child in root: 

print('tag:', child.tag, 'attributes:', child.attrib) 

for grandchild in child: 

print('\ttag:', grandchild.tag, 'attributes:', grandchild.attrib) 












































tag: breakfast attributes: {'hours': '7-11'} 
tag: item attributes: {'price': '$6.00'} 
tag: item attributes: {'price': 00'} 

tag: Lunch attributes: {'hours': '11-3'} 
tag: item attributes: {'price': '$5.00'} 

tag: dinner attributes: {'hours': '3-10'} 
tag: item attributes: {'price': '8.00'} 

>>> len(root) # 菜单 选择 的 数目 














>>> Len(root[0]) # 早餐 项 的 数目 
2 
对 于 嵌 套 列表 中 的 每 一 个 元 素 ，tag 是 标签 字符 串 ，attrib 是 它 属性 的 一 个 字典 。 
ElementTree 有 许多 查找 XML 导出 数据 、 修 改 数据 乃至 写 入 XML 文件 的 方法 ， 它 的 文档 
(https://docs.python.org/3.3/library/xml.etree.elementtree.html) 中 有 详细 的 介绍 。 
其 他 标准 的 Python XML 库 如 下 。 
。 XmlL.dom 
JavaScript 开发 者 比较 熟悉 的 文档 对 象 模型 (DOM) 将 Web 文档 表示 成 层次 结构 ， 它 
会 把 整个 XML 文件 载 和 人 到 内 存 中 ， 同 样 允 许 你 获取 所 有 的 内 容 。 
。 xml.sax 
简单 的 XML API 或 者 SAX 都 是 通过 在 线 解 析 XML ,不 需要 一 次 载 入 所 有 内 容 到 内 存 中 ， 
因此 对 于 处 理 巨大 的 XML 文件 流 是 一 个 很 好 的 选择 。 


8.2.3 HTML 


在 Web 网络 中 ,海量 的 数据 以 超 文 本 标记 语言 (HTML) 这 一 基本 的 文档 格式 存储 。 然 
而 许多 文档 不 遵循 HTML 的 规则 ， 导 致 很 难 进行 解析 。 况 且 更 多 的 HTML 是 用 来 格式 化 
输出 显示 结果 而 不 是 用 于 交换 数据 。 本 章 的 主要 内 容 是 描述 定义 明确 的 数据 格式 ， 关 于 
HTML 的 更 多 讨论 放 在 第 9 章 。 















































8.2.4 JSON 


JavaScript Object Notation (JSON，http:/www.json.org) 是 源 于 JavaScript 的 当今 很 流行 的 
数据 交换 格式 ， 它 是 JavaScript 语言 的 一 个 子 集 ， 也 是 Python 合法 可 支持 的 语法 。 对 于 
Python 的 兼容 性 使 得 它 成 为 程序 间 数 据 交 换 的 较 好 选择 。 同 样 ， 在 第 9 章 的 Web 开发 中 
会 看 到 很 多 JSON 的 示例 。 

不 同 于 众多 的 XML 模块 ，Python 只 有 一 个 主要 的 JSON 模块 json (名 字 容 易 记 忆 )。 下 再 
的 程序 将 数据 编码 成 JSON 字符 串 ， 然 后 再 把 JSON 字符 串 解码 成 数据 。 用 之 前 XML 例 
子 的 数据 构建 JSON 的 数据 结构 : 


>>> menu = \ 


























po 
. "breakfast": { 
"hours": "7-11", 
"items": { 
"breakfast burritos": "$6.00", 
"pancakes": "$4.00" 
} 


"hours": "11-3", 


"hamburger": "$5.00" 
} 
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接 下 来 使 用 dumps() 将 menu 编码 成 JSON 字符 上 


. "dinner": { 
"hours": "3-10", 
"items": { 
"spaghetti": "$8.00" 
} 





Hd 


(menu_json): 


>>> import json 

>>> menu_json = json.dumps(menu) 

>>> menu_json 

'{"dinner": {"items": {"spaghetti": "$8.00"}, "hours": "3-10"}, 
"lunch": {"items": {"hamburger": "$5.00"}, "hours": "11-3"}, 
"breakfast": {"items": {"breakfast burritos": "$6.00", "pancakes": 
"$4.00"}, "hours": "7-11"}}' 


现在 反 过 来 使 用 Loads() 把 JSON 字符 串 menu_json 解析 成 Python 的 数据 结构 (menu2) : 


menu 
同 的 
你 可 


细 介 2 


>>> menu2 = json.Loads(menu_json) 

>>> menu2 

{'breakfast': {'items': {'breakfast burritos': '$6.00', 'pancakes': 

'$4.00'}, 'hours': '7-11'}, 'lunch': {'items': {'hamburger': '$5.00'}, 

'hours': '11-3'}, 'dinner': {'items': {'spaghetti': '$8.00'}, 'hours': '3-10'}} 


和 menu2 是 具有 相同 键 值 的 字典 ， 和 标准 的 字典 用 法 一 样 ， 得 到 的 键 的 顺序 是 不 尽 相 


o 


能 会 在 编码 或 者 解析 JSON 对 象 时 得 到 异常 ， 包 括 对 象 的 时 间 datetime (在 10.4 节 详 
绍 ) : 

















>>> import datetime 

>>> now = datetime.datetime.utcnow() 

>>> NoOw 

datetime.datetime(2013, 2, 22, 3, 49, 27, 483336) 

>>> json.dumps(now) 

Traceback (most recent call last): 

4 (删除 栈 跟踪 以 保存 树 ) 

TypeError: datetime.datetime(2013, 2, 22, 3, 49, 27, 483336) is not JSON serializable 


>>> 




















上 述 错误 发 生 是 因为 标准 JSON 没有 定义 日 期 或 者 时 间 类 型 ， 需 要 自 定义 处 理 方式 。 你 可 


以 把 


如 果 


datetime 转换 成 JSON 能 够 理解 的 类 型 ， 比 如 字符 串 或 者 epoch 值 (第 10 章 讲 解 ) : 


>>> now_str = str(now) 

>>> json.dumps(now_str) 

'"2013-02-22 03:49:27.483336"' 

>>> from time import mktime 

>>> now_epoch = int(mktime(now.timetuple())) 
>>> json.dumps(now_epoch) 

'1361526567" 


datetime 值 出 现在 正常 转换 后 的 数据 中 间 ， 那 么 做 上 面 的 特殊 转化 是 困难 的 。 你 可 
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以 通过 继承 修改 JSON 的 编码 方式 (6.3 节 中 讲解 )，Python 中 的 JSON 文档 (https://docs. 
python.org/3.3/library/json.html) 给 出 了 一 个 复杂 数字 的 例子 ， 同 样 使 JSON 出 现 问题 。 下 


面 为 datetime 修改 编码 方式 : 


>>> CLass DTEncoder(json.JSONEncoder ) : 
def default(self, obj): 
# isinstance() 检 查 obj 的 类 型 
if isinstance(obj, datetime.datetime): 
return int(mktime(obj.timetuple())) 
# 否则 是 普通 解码 器 知道 的 东西 : 
return json.JSONEncoder .default(self, obj) 

















>>> json.dumps(now, cls=DTEncoder) 
'1361526567'" 


新 类 DTEncoder 是 JSONEncoder 的 一 个 子 类 。 我 们 需要 重 载 它 的 default() 方法 来 增加 处 理 


datetime 的 代码 。 继 承 确 保 了 剩 下 的 功能 与 父 类 的 一 致 性 。 
函数 isinstance() 检查 obj 是 否 是 类 datetime.datetime 的 对 象 ， 因 





是 对 象 》 isinstance( ) 总 是 适用 的 ; 


>>> type(now) 

<class 'datetime.datetime'> 
>>> isinstance(now, datetinme.datetime) 
True 

>>> type(234) 

<class 'int'> 

>>> isinstance(234, int) 
True 

>>> type('hey') 

<class 'str'> 

>>> isinstance('hey', str) 
True 


























和 items() 抽取 内 容 。 


8.2.5 YAML 


和 JSON 类 似 ，YAML (http:/www.yaml.org) 同样 有 键 和 值 ， 但 主要 用 来 处 理 





为 在 Python 中 一 切 都 























对 于 JSON 和 其 他 结构 化 的 文本 格式 ， 在 不 需要 提前 知道 任何 东西 的 情况 下 
可 以 从 一 个 文件 中 解析 数据 结构 。 然 后 使 用 isinstance() 和 相关 类 型 的 方法 
遍历 数据 。 例 如 ， 如 果 其 中 的 一 项 是 字典 结构 ， 可 以 通过 keys()、values() 


日 期 和 时 间 


这 样 的 数据 类 型 。 标 准 的 Python 库 没 有 处 理 YAML 的 模块 ， 因 此 需要 安装 第 三 方 库 yaml 
(http:/pyyaml.org/wikiPyYAML) 操作 数据 。load() 将 YAML 字符 串 转 换 为 Python 数据 








结构 ， 而 dump() 正好 相反 。 


下 面 的 YAML 文件 mcintyre.yaml 包含 加 拿 大 诗人 James McIntyre 的 两 首 诗 的 信息 : 


Name: 
first: James 
last: McIntyre 
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dates: 
birth: 
death: 

details: 


1828-05-25 
1906-03-31 


bearded: true 


themes 
books: 


: [cheese, Canadal 


url: http://www.gutenberg.org/files/36068/36068-h/36068-h.htm 


poems: 


- title: “Motto' 


text 


Politeness, perseverance and pluck, 
To their possessor will bring good luck. 
- title: 'Canadian Charms' 


text 


Here industry is not in vain, 

For we have bounteous crops of grain, 
And you behold on every field 

Of grass and roots abundant yield, 
But after all the greatest charm 

Is the snug home upon the farm, 

And stone walls now keep cattle warm. 


类 似 于 true、false、on 和 off 的 值 可 以 转换 为 Python 的 布尔 值 。 整 数 和 字符 串 转 换 为 
Python 等 价 的 。 其 他 语法 创建 列表 和 字典 : 
>>> import yaml 


>>> with open('mcintyre.yaml', 'rt') as fin: 
>>> text = fin.read() 


>>> data 


= yaml.load(text) 


>>> data[ 'details'] 
{'themes': ['cheese', 'Canada'], 'bearded': True} 
>>> len(data[ 'poems']) 


2 


创建 的 匹配 这 个 YAML 文人 





目 ， 使 用 dict/list/dict 的 引用 





























F 的 数据 结构 超过 了 一 层 舱 套 。 如 果 你 想得到 第 二 首 诗 歌 的 题 


>>> data[ 'poems'][1]['title'] 
"Canadian Charms' 


PyYAML 可 以 从 字符 串 中 载 入 Python 对 象 ， 但 这 样 做 是 不 安全 的 。 如 果 导 
入 你 不 信任 的 YAML， 使 用 safe_load() 代替 Load()。 最 好 还 是 使 用 safe_ 
Load()， 通 过 阅读 war is peace (http://nedbatchelder.com/blog/201302/war_is_ 
peace.html) 进一步 了 解 载 入 YAML 在 Ruby on Rails 平台 上 如 何 折 中 。 














8.2.6 ”安全 提示 


你 可 以 使 用 本 章 中 介绍 的 所 有 格式 保存 数据 对 象 到 文件 中 ， 或 者 在 文件 中 读 取 它们 。 在 这 
个 过 程 中 也 可 能 会 产生 安全 性 问题 。 


例如 ， 下 面 引 











自 10 亿 维 基 百 科 页 画 





ji 的 XML 片段 定义 了 10 个 肯 套 实体 ， 每 一 项 扩展 10 倍 
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的 子 项 ， 总 共有 10 亿 的 扩展 项 : 


<?xml version="1.0"?> 

<!DOCTYPE lolz [ 

<!ENTITY lol "lol"> 

<!ENTITY lol1 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;"> 
<!ENTITY lol2 "&LoL1;&LoL1;&LoL1;&LoL1;&LoL1;&LoL1;&LoL1;&LoL1;&LoL1;&LoL1; " 
<!ENTITY lol3 "&LoL2;&LoL2;&LoL2;&LoL2;&LoL2;&LoL2;&LoL2;&LoL2;&LoL2;&LoL2; " 
<!ENTITY lol4 "&LoL3;&LoL3;&LoL3;&LoL3;&LoL3;&LoL3;&LoL3;&LoL3;&LoL3;&LoL3; 
<!ENTITY LoL5 "&LoL4;&LoL4;&LoL4;&LoL4;&LoL4;&LoL4;&LoL4;&LoL4;&LoL4;&LoL4; " 
<!ENTITY LoL6 "&LoL5;&LoL5;&LoL5;&LoL5;&LoL5;&LoL5;&LoL5;&LoL5;&LoL5;&LoL5; 
<!ENTITY LoL7 "&LoL6;&LoL6;&LoL6;&LoL6;&LoL6;&LoL6;&LoL6;&LoL6;&LoL6;&LoL6; " 
<!ENTITY lol8 "&LoL7;&LoL7;&LoL7;&LoL7;&LoL7;&LoL7;&LoL7;&LoL7;&LoL7;&LoL7; " 
<!ENTITY lol9 "&LoL8;&LoL8;&LoL8;&LoL8;&LoL8;&LoL8;&LoL8;&LoL8;&LoL8;&LoL8; " 
]> 

<LoLz>&LoL9;</LoLz> 


> 
> 
> 
> 
> 
> 
> 
> 





精 糕 的 是， 前 面 提 到 的 XML 库 无 法 容纳 10 亿 多 的 项 。Defused XML (https://bitbucket.org/ 
tiran/defusedxml) 列 出 了 这 种 攻击 和 Python 库 的 其 他 缺点 ， 并 且 指 出 了 如 何 修改 设置 避免 
这 些 问 题 。 或 者 使 用 defusedxmt 库 作 为 安全 的 保护 : 

>>> # 不 安全 : 

>>> from xml.etree.ElementTree import parse 

>>> et = parse(xmlfile) 

>>> # 受 保护 : 

>>> from defusedxmL.ELementTree import parse 

>>> et = parse(xmlfile) 


8.2.7 配置 文件 


许多 程序 提供 多 种 选项 和 设置 。 动 态 的 设置 可 以 通过 传人 程序 参数 ， 但 是 持久 的 参数 需要 
保存 下 来 。 因 此 ， 尽 管 你 急 着 想 快 速 定 义 自 己 的 配置 文件 格式 ， 但 是 最 好 不 要 这 样 做 。 你 
定义 的 格式 可 能 既 粗 糙 也 设 有 节省 时 间 。 你 需要 同时 维护 写 和 人 配置 文件 的 程序 以 及 读 取 配 
置 文件 的 程序 (有 时 被 称 为 解析 程序 )。 其 实 ， 在 程序 中 配置 文件 可 以 有 许多 好 的 选择 ， 
包括 之 前 几 节 中 提 到 的 格式 。 


我 们 使 用 标准 configparser 模块 处 理 Windows 风格 的 初始 化 .ini 文件 。 这 些 文件 都 包含 
key = value 的 定义 ， 以 下 是 一 个 简单 的 配置 文件 settings.cfg 例子 : 











站 















































[english] 
greeting = Hello 


[french] 
greeting = Bonjour 


[files] 

home = /usr/local 
# 简单 的 插入 : 

bin = %(home)s/bin 


下 面 的 代码 是 把 配置 文件 读 入 到 Python 数据 结构 : 
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>>> import configparser 

>>> cfg = configparser.ConfigPparser() 
>>> cfg.read('settings.cfg') 
['settings.cfg'] 

>>> cfg 

<configparser.Configparser object at 0x1006be4d0> 
>>> cfg[ 'french '] 

<Section: french> 

>>> cfg['french']['greeting'] 
"Bonjour 

>>> cfg['files']['bin'] 
"/usr/LocatL/bin' 




















其 他 操作 包括 自 定义 修改 也 是 可 以 实现 的 ， 请 参阅 文档 configparser (https://docs.python. 


org/3.3/library/configparser.html) 。 如 果 你 需要 两 层 以 上 的 棋 套 结构 ， 使 用 YAML 或 者 JSON。 


8.2.8 其 他 交换 格式 
这 些 二 进 制 数据 交换 格式 通常 比 XML 或 者 JSON 更 加 快速 和 复杂 : 
。 MsgPack (http://msgpack.org) 





。 Protocol Buffers (https://code.google.com/p/protobuf/) 
。 Avro (http://avro.apache.org/docs/current/) 
。 Thrift (http://thrift.apache.org/) 


因为 它们 都 是 二 进 制 文件 ， 所 以 人 类 是 无 法 使 用 文本 编辑 器 轻易 编辑 的 。 


8.2.9 ”使 用 pickle 序 列 化 


存储 数据 结构 到 一 个 文件 中 也 称 为 序列 化 (serializing)。 像 JSON 这 样 的 格式 需要 定制 
的 序列 化 数据 的 转换 器 。Python 提供 了 pickle 模块 以 特殊 的 二 进 制 格式 保存 和 恢复 数 





据 对 象 。 
还 记得 JSON 解析 datetime 对 象 时 出 现 问 题 吗 ? 但 对 于 pickle 就 不 存在 问题 : 


>>> import pickle 

>>> import datetime 

>>> now1 = datetime.datetime.utcnow() 

>>> pickled = pickle.dumps(now1) 

>>> now2 = pickle.loads(pickled) 

>>> nowl 

datetime.datetime(2014, 6, 22, 23, 24, 19, 195722) 
>>> now2 

datetime.datetime(2014, 6, 22, 23, 24, 19, 195722) 


pickle 同样 也 适用 于 自己 定义 的 类 和 对 象 。 现 在 ， 我 们 定义 一 个 简单 的 类 Tiny， 
强制 转换 为 字符 串 时 会 返回 'tiny': 
>>> import pickle 


>>> class Tiny(): 
def __str__(self): 








a 

















其 对 象 
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return 'tiny' 


>>> obj1 = Tiny() 

>>> obj1 

<__main__.Tiny object at 0x10076ed10> 
>>> str(obj1) 

"tny 

>>> pickled = pickle.dumps(obj1) 

>>> pickled 
b'\x80\x03c__main__\nTiny\nq\x00)\x81q\x01." 
>>> obj2 = pickle.loads(pickled) 

>>> obj2 

<__main__.Tiny object at 0x10076e550> 
>>> str(obj2) 

"tiLny 


pickled 是 从 对 象 obj1 转换 来 的 序列 化 二 进 制 字符 串 。 然 后 再 把 字符 串 还 原 成 对 象 obj1 的 
副本 obj2。 使 用 函数 dump() 序列 化 数据 到 文件 ， 而 函数 Load() 用 作 反 序列 化 。 


因为 pickle 会 创建 Python 对 象 ， 前 面 提 到 的 安全 问题 也 同样 会 发 生 ， 不 要 
对 你 不 信任 的 文件 做 反 序列 化 。 





8.3 结构 化 二 进 制 文 件 


有 些 文件 格式 是 为 了 存储 特殊 的 数据 结构 ， 它 们 既 不 是 关系 型 数据 库 也 不 是 NoSQL 数据 
库 。 下 面 会 介绍 其 中 的 几 种 。 


8.3.1 电子 数据 表 


电子 数据 表 ， 尤 其 是 Microsoft Excel， 是 广泛 使 用 的 二 进 制 数据 格式 。 如 果 你 把 电子 数据 
表 保 存 到 一 个 CSV 文件 中 ， 就 可 以 利用 之 前 提 到 的 标准 csv 模块 读 取 它 。 如 果 你 有 一 个 
xls 文件 ， 也 可 以 使 用 第 三 方 库 xLrd (http://pypi.python.org/pypi/xlrd) 读 写 文件 。 


8.3.2 ”层次 数据 格式 


层次 数据 格式 (HDF5) 是 一 种 用 于 多 维 数据 或 者 层次 数值 数据 的 二 进 制 数据 格式 。 它 主 
要 用 在 科学 计算 领域 ， 快 速 读 取 海 量 数据 集 (GB 或 者 TB) 是 常见 的 需求 。 即 使 某 些 情况 
下 HDEF5 能 很 好 地 代替 数据 库 ， 但 它 在 商业 应 用 上 也 是 默默 无 闻 的 。 它 能 适用 于 WORM 
(Write Once/Read Many; 一 次 写 入 ， 多 次 读 取 ) 应 用 ， 不 用 担心 写 操作 冲突 的 数据 保护 。 
下 面 是 两 个 可 能 有 用 的 模块 : 

。 hspy 是 功能 全 面 的 较 低 级 的 接口 ， 参 考 文档 (http://www.h5py.org/) 和 代码 (https:// 

github.com/hSpy/hSpy) ; 

。 PyTables 是 具有 数据 库 特 征 的 较为 高 级 的 接口 ， 参 考 文档 (http://www.pytables.org/) 和 
代码 (http://pytables.github.com/)。 
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这 两 个 模块 都 会 在 附录 C 中 的 Python 科学 应 用 中 讨论 ， 在 这 里 提 到 它 以 防 你 有 存储 和 
检索 海量 大 数据 的 需求 以 及 愿意 考虑 不 同 于 普通 数据 库 的 解决 方案 。 一 个 很 好 的 例子 是 
Million Song dataset (http://labrosa.ee.columbia.edu/millionsong/) ， 就 是 通过 HDF5 格式 下 载 
歌曲 数据 。 


8.4 关系 型 数据 库 


关系 型 数据 库 虽 然 只 有 40 多 年 的 历史 ， 却 无 处 不 在 。 你 一 定 曾经 和 它 打 过 交道 ， 使 用 时 
你 会 体会 到 它 提供 的 如 下 功能 : 

。 多 用 户 同时 访问 数据 ， 

。 用 户 使 用 数据 的 保护 ; 

。 高 效 地 存储 和 检索 数据 ， 

。 数据 被 模式 定义 以 及 被 约束 限制 ， 

。 Joins 通过 连接 发 现 不 同 数据 之 间 的 关系 ，; 

。 声明 式 ( 非 命 令 式 ) 查询 语言 ，SQL (Structured Query Language)。 


之 所 以 被 称 为 关系 型 (relational) 是 因为 数据 库 展现 了 表单 (table) 形式 的 不 同类 型 数据 
之 间 的 关系 。 例 如 之 前 菜单 的 例子 中 ， 每 一 项 和 它 的 价格 是 有 对 应 关系 的 。 

表单 是 一 个 具有 行 和 列 的 二 元 组 ， 和 电子 数据 表 类 似 。 要 创建 一 个 表单 ， 需 要 给 它 命名 ， 
明确 次 序 、 每 一 项 的 名 称 以 及 每 一 列 的 类 型 。 每 一 行 都 会 存在 相同 的 列 ， 即 使 允许 缺失 项 
(也 称 为 null) 。 在 菜单 例子 中 ， 你 创建 的 表单 中 应 该 把 每 一 个 待 售 的 食物 作为 一 行 ， 每 一 
行 都 存在 相同 的 列 ， 包 括 它 的 价格 。 

革 一 行 或 者 某 几 行 通常 作为 表单 的 主键 ， 在 表单 中 主键 的 值 是 独一无二 的 ， 防 止 重复 增添 
数据 项 。 这 些 键 在 查询 时 被 快速 索引 ， 类 似 于 图 书 的 索引 ， 方 便 快 速 地 找到 指定 行 。 

每 一 个 表单 都 附属 于 某 数据 库 ， 类 似 于 一 个 文件 都 存在 于 某 目 录 下 。 两 层 的 层次 结构 便于 
更 好 地 组 织 和 管理 。 


数据 库 一 词 有 多 种 用 法 ， 用 于 指 代 服务 器 、 表 单 容 器 以 及 存储 的 数据 。 如 
果 你 同时 指 代 它 们 ， 可 以 称 其 为 数据 库 服务 器 (database server)、 数 据 库 
(database) 和 数据 (data) 。 


















































如 果 你 想 通 过 非 主 键 的 列 的 值 查找 数据 ， 可 以 定义 一 个 二 级 索引 ， 否 则 数据 库 服务 器 需要 
扫 摘 整个 表单 ， 上 暴力 搜 索 每 一 行 找到 匹配 列 的 值 


表单 之 间 可 以 通过 外 键 建 立 关 系 ， 列 的 值 受 这 些 键 的 约束 。 


8.4.1 SQL 


SQL 既 不 是 一 个 API 也 不 是 一 种 协议 ， 而 是 一 种 声明 式 语言 ， 只 需要 告诉 它 做 什么 即 可 。 
它 是 关系 型 数据 库 的 通用 语言 。SQL 查询 是 客户 端 发 送 给 数据 库 服务 器 的 文本 字符 串 ， 指 
明 需 要 执行 的 具体 操作 。 
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SQL 语言 存在 很 多 标准 定义 格式 ， 但 是 所 有 的 数据 库 制造 商都 会 增加 它们 自己 的 扩展 ， 导 
致 产生 许多 SQL 方言 。 如 果 你 把 数据 存储 在 关系 型 数据 库 中 ，SQL 会 带 来 一 定 的 可 移植 
性 ， 但 是 方言 和 操作 差异 仍然 会 导致 难以 将 数据 移植 到 另 一 种 类 型 的 数据 库 中 。 
SQL 语句 有 两 种 主要 的 类 型 ; 
。 DDL (数据 定义 语言 ) 
处 理 用 户 、 数 据 库 以 及 表单 的 创建 、 删 除 、 约 束 和 权限 等 。 
。 DML (数据 操作 语言 ) 
处 理 数据 插入 、 选 择 、 更 新 和 删除 。 
表 8-1 列 出 了 基本 的 SQL DDL 命令 。 


表 8-1: 基本 的 SQL DDL 命 令 










































































操作 SQL 模式 SQL 示例 

创建 数据 库 CREATE DATABASE dbname CREATE DATABASE d 

选择 当前 数据 库 USE dbname USE d 

删除 数据 库 以 及 表单 ” DROP DATABASE dbname DROP DATABASE d 

创建 表单 CREATE TABLE tbname (coldefs) CREATE TABLE t(id INT, count INT) 
徐 表单 DROP TABLE tbname DROP TABLE t 

删除 表单 中 所 有 的 行 ”TRUNCATE TABLE tbname TRUNCATE TABLE t 





























为 什么 语句 中 命令 都 是 大 写字 母 ? SQL 是 不 区 分 大 小 写 的 ， 但 是 一 般 为 了 区 
分 命令 和 名 称 ， 在 代码 示例 中 还 是 用 大 写字 母 。 














SQL 关系 型 数据 库 的 主要 DML 操作 可 以 缩 略 为 CRUD。 


。 _ Create: 使 用 INSERT 语句 创建 
。 Read: 使 用 SELECT 语句 选择 

。 Update: 使 用 UPDATE 语句 更 新 
。 Delete: 使 用 DELETE 语句 删除 


表 8-2 列 出 了 一 些 SQL DML 命令 。 
表 8-2: 基本 的 SQL DML 命 令 








操作 SQL 模式 SQL 示例 

增加 行 INSERT INTO tbname VALUES(...) INSERT INTO t VALUES(7,40) 

选择 全 部 行 和 全 部 列 “SELECT * FROM tbname SELECT * FROM 七 

选择 全 部 行 和 部 分 列 SELECT cols FROM tbname SELECT id,count from t 

选择 部 分 行 部 分 列 SELECT cols FROM tbname WHERE condition SELECT id,count from 七 WHERE count > 5 
AND id = 9 


修改 一 列 的 部 分 行 。 UPDATE tbname SET col = value WHERE UPDATE t SET count=3 WHERE id=5 


condition 
删除 部 分 行 DELETE FROM tbname WHERE condition DELETE FROM t WHERE count <= 10 OR id = 16 
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8.4.2 DB-API 
应 用 程序 编程 接口 (API) 是 访问 某 些 服务 的 函数 集合 。DB-API (http://legacy.python.org/ 
dev/peps/pep-0249/) 是 Python 中 访问 关系 型 数据 库 的 标准 API。 使 用 它 可 以 编写 简单 的 程 
序 来 处 理 多 种 类 型 的 关系 型 数据 库 ， 不 需要 为 每 种 数据 库 编写 独立 的 程序 ， 类 似 于 Java 的 
JDBC 或 者 Perl 的 dbi。 
它 的 主要 函数 如 下 所 示 。 
。 connect() 
连接 数据 库 ， 包 含 参数 用 户 名 、 密 码 、 服 务 器 地 址 ， 等 等 。 
。 CUrsor() 
创建 一 个 cursor 对 象 来 管理 查询 。 
。 execute() 和 executemany() 
对 数据 库 执行 一 个 或 多 个 SQL 命令 。 
。 fetchone()、fetchmany() 和 fetchall() 
得 到 execute 之 后 的 结果 。 


下 一 节 的 Python 数据 库 模 块 遵循 DB-API， 但 会 有 扩展 和 细节 上 的 差别 。 




















8.4.3 SQLite 
SQLite (http://www.sqlite.org) 是 一 种 轻 量 级 的 、 优 秀 的 开源 关系 型 数据 库 。 它 是 用 
Python 的 标准 库 实 现 ， 并 且 存 储 数据 库 在 普通 文件 中 。 这 些 文件 在 不 同 机 器 和 操作 系统 之 
间 是 可 移植 的 ， 使 得 SQLite 成 为 简易 关系 型 数据 库 应 用 的 可 移植 的 解决 方案 。 它 不 像 功能 
全 面 的 MySQL 或 者 PostgreSQL，SQLite 仅仅 支持 原生 SQL 以 及 多 用 户 并 发 操作 。 浏 览 
器 、 智 能 手机 和 其 他 应 用 会 把 SQLite 作为 嵌入 数据 库 。 
首先 使 用 connect() 函数 连接 本 地 的 SQLite 数据 库 文件 ， 这 个 文件 和 目录 型 数据 库 (管理 
其 他 的 表单 ) 是 等 价 的 。 字 符 串 ':memory:' 仅 用 于 在 内 存 中 创建 数据 库 ， 有 助 于 方便 快速 
地 测试 ， 但 是 程序 结束 或 者 计算 机 关闭 时 所 有 数据 都 会 丢失 。 
下 一 个 例子 会 创建 一 个 数据 库 enterprise.db 和 表单 zoo 用 以 管理 路 边 繁 华 的 完 物 动物 园 
业务 。 表 单 的 列 如 下 所 示 。 
。 critter 

可 变 长 度 的 字符 串 ， 作 为 主键 。 
。 Ccount 

某 动物 的 总 数 的 整数 值 。 
。 damages 

人 和 动物 的 互动 中 损失 的 美元 数目 。 


>>> import sqlite3 
>>> Conn = sqlite3.connect('enterprise.db') 
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>>> CUrs = conn.cursor() 

>>> curs.execute('''CREATE TABLE zoo 
(critter VARCHAR(20) PRIMARY KEY ， 
Count INT， 
damages FLOAT)''') 

<sqlite3.Cursor object at 0x1006a22d0> 


Python 只 有 在 创建 长 字符 串 时 才 会 用 到 三 引号 (''')， 例 如 SQL 查询 。 
现在 往 动 物 园 中 新 增 一 些 动 物 : 


>>> curs.execute('INSERT INTO zoo VALUES("duck", 5, 0.0)') 
<sqlite3.Cursor object at 0x1006a22d0> 

>>> curs.execute('INSERT INTO zoo VALUES("bear", 2, 1000.0)') 
<sqlite3.Cursor object at 0x1006a22d0> 


使 用 placeholder 是 一 种 更 安全 的 、 插 入 数据 的 方法 : 


>>> ins = 'INSERT INTO zoo (critter, count, damages) VALUES(?, ?, ?)' 
>>> curs.execute(ins, ('weasel', 1, 2000.0)) 
<sqlite3.Cursor object at 0x1006a22d0> 


在 SQL 中 使 用 三 个 问号 表示 要 插入 三 个 值 ， 并 把 它们 作为 一 个 列表 传 入 函数 execute()。 
这 些 占 位 符 用 来 处 理 一 些 元 余 的 细节 ， 例 如 引用 0 它们 会 防止 SQL 注入 : 一 种 
常见 的 Web 外 部 攻击 方式 ， 向 系统 插入 恶意 的 SQL 命令 


现在 使 用 SQL 获取 所 有 动物 : 


>>> CUrs.exeCcute(' SELECT * FROM zoo') 

<sqlite3.Cursor object at 0x1006a22d0> 

>>> rows = curs.fetchall() 

>>> print(rows) 

[('duck', 5, 0.0), ('bear', 2, 1000.0), ('weasel', 1, 2000.0)] 


按照 数目 (count) 排序 ， 重 新 获得 它们 : 


>>> curs.execute('SELECT * from zoo ORDER BY count') 
<sqlite3.Cursor object at 0x1006a22d0> 

>>> curs.fetchall() 

[('weasel', 1, 2000.0), ('bear', 2, 1000.0), ('duck', 5, 0.0)] 


又 需要 按照 降序 得 到 它们 : 


>>> curs.execute('SELECT * from zoo ORDER BY count DESC') 
<sqlite3.Cursor object at 0x1006a22d0> 

>>> curs.fetchall() 

[('duck', 5, 0.0), ('bear', 2, 1000.0), ('weasel', 1, 2000.0)] 


哪 种 类 型 的 动物 花费 最 多 呢 ? 


>>> curs.execute('''SELECT * FROM zoo WHERE 
damages = (SELECT MAX(damages) FROM zo0)''') 
<sqlite3. Cursor object at 0x1006a22d0> 
>>> curs.fetchall() 
[('weasel', 1, 2000.0)] 
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你 可 能 会 认为 是 bears (花费 最 多 )。 实 际 上 ， 最 好 还 是 查看 一 下 实际 数据 。 


在 结束 本 节 之 前 ， 有 一 点 需要 明确 ， 如 果 我 们 已 经 打开 了 一 个 连接 (connection) 或 者 游标 
(cursor)， 不 需要 时 应 该 关 掉 它们 : 


>>> curs.close() 
>>> conn.close() 


8.4.4 MySQL 


MySQL (http:/www.mysqlcom) 是 一 款 非常 流行 的 开源 关系 型 数据 库 。 不 同 于 SQLite， 
它 是 真正 的 数据 库 服 务 器 ， 因 此 客户 端 可 以 通过 网 络 从 不 同 的 设备 连接 它 。 











MysqlIDB (http://sourceforge.net/projects/mysql-python) 是 最 常用 的 MySQL 驱动 程序 ， 但 至 今 
没有 支持 Python 3。 表 8-3 列 出 了 Python 连接 MySQL 的 几 个 驱动 程序 。 


表 8-3: MySQL 的 驱动 程序 

















名 称 链接 Pypi 包 导入 注意 

MySQL http:/dev.mysql.com/doc/connector- mysql-connector- mysql.connector 

Connector python/en/index.html python 

PYMySQL https://github.com/petehunt/PyMySQL/ pymysql pymysql 

oursql http:/pythonhosted.org/oursql/ oursql oursql 需要 SQL 客户 端 
的 C 依赖 库 


8.4.5 PostgreSQL 


PostgreSQL (http://www.postgresql.org/) 是 一 款 功能 全 面 的 开源 关系 型 数据 库 ， 在 很 多 方 
看 超过 MySQL。 表 8-4 列 出 了 Python 连接 PostgreSQL 的 几 个 驱动 程序 。 


表 8-4: PostgreSQL 的 驱动 程序 

















名 称 链接 Pypi 包 导入 注意 
psycopg2 http://initd.org/psycopg/ Ppsycopg2 psycopg2 需要 来 自 PostgreSQL 客户 端 工 具 
的 pg_config 


py-postgresql http://python.projects. Py-postgresql postgresql 
pgfoundry.org/ 


最 流行 的 驱动 程序 是 psycopg2， 但 是 它 的 安装 依赖 PostgreSQL 客户 端的 相关 库 。 


8.4.6 SQLAIchemy 

对 于 所 有 的 关系 型 数据 库 而 言 ，SQL 是 不 完全 相同 的 ， 并 且 DB-API 仅仅 实现 共有 的 部 
分 。 每 一 种 数据 库 实 现 的 是 包含 自己 特征 和 哲学 的 方言 。 许 多 库 函 数 用 于 消除 它们 之 间 的 
差异 ， 最 著名 的 跨 数据 库 的 Python 库 是 SQLAlchemy (http:/www.sqlalchemy.org ) 。 


它 不 在 Python 的 标准 库 ， 但 被 广泛 认可 ， 使 用 者 众多 。 在 你 的 系统 (Linux) 中 使 用 下 面 
这 条 命令 安装 它 ， 
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$ pip install sqLaLchemy 
你 可 以 在 以 下 层级 上 使 用 SQLAlchemy; 
。 底层 负责 处 理 数据 库 连 接 池 、 执 行 SQL 命令 以 及 返回 结果 ， 这 和 DB-API 相似 ; 
。 再 往 上 是 SQL 表达 式 语言 ， 更 像 Python 的 SQL 生成 器 ， 
。 较 高 级 的 是 对 象 关 系 模型 (ORM)， 使 用 SQL 表达 式 语言 ， 将 应 用 程序 代码 和 关系 型 
数据 结构 结合 起 来 。 
随 着 内 容 的 深入 ， 上 面 提 到 的 术语 会 变 得 熟悉 。SQLAIchemy 实现 在 前 面 几 节 提 到 的 数据 库 
驱动 程序 的 基础 上 。 因 此 不 需要 导入 驱动 程序 ， 初 始 化 的 连接 字符 串 会 作出 分 配 ， 例 如 : 
dialect + driver :// user : password @ host : port / dbname 
字符 串 中 的 值 代 表 如 下 含义 。 
。 dialect 
数据 库 类 型 。 
。 driver 
使 用 该 数据 库 的 特定 驱动 程序 。 
。 USser 和 password 
数据 库 认 证 字符 串 。 
。 host 和 port 
数据 库 服务 器 的 位 置 (只 有 特定 情况 下 会 使 用 端口 号 :port)。 
。 dbname 
初始 连接 到 服务 器 中 的 数据 库 。 
表 8-5 列 出 了 常见 方言 和 对 应 的 驱动 程序 。 
表 8-5: SQLAIchemy 连 接 













































































方言 驱动 程序 

sqlite pysqlite (可 以 忽略 ) 
mysql mysqlconnector 
mysql pymysql 

mysql oursql 


postgresql psycopg2 
postgresql pypostgresql 


1. 引擎 层 

首先 ， 我们 试用 一 下 SQLAlchemy 的 底层 ， 它 可 以 实现 多 于 基本 DB-API 的 功能 。 

以 内 置 于 Python 的 SQLite 为 例 ， 连 接 字符 串 忽 略 host、port、user 和 password。dbname 
表示 存储 SQLite 数据 库 的 文件 ， 如 果 省 去 dbname，SQLite 会 在 内 存 创建 数据 库 。 如 果 
dbname 以 反 和 斜 线 〈/) 开头 ， 那 么 它 是 文件 所 在 的 绝对 路 径 (Linux 和 OS X 是 反 斜 线 ， 而 
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在 Windows 是 例如 CN 的 路 径 名 )。 否 则 它 是 当前 目录 下 的 相对 路 径 。 
以 下 是 一 个 程序 的 所 有 部 分 ， 为 了 解释 把 它们 隔 开 。 
开始 导入 库 函 数 ， 例 子 中 使 用 了 import 的 别名 ， 用 字符 串 sa 指 代 SQLAlchemy。 我 通常 
会 这 样 做 是 因为 sa 要 比 sqLatLchemy 简洁 得 多 : 


>>> import sqlalchemy as sa 


连接 到 数据 库 ， 并 在 内 存 中 存储 它 (参数 字符 串 'sqlite:///:memory:" 也 是 可 行 的 ) : 


>>> Conn = sa.create engine('sqlite://') 


创建 包含 三 列 的 数据 库 表 单 zoo: 


>>> conn.execute('''CREATE TABLE zoo 
(critter VARCHAR(20) PRIMARY KEY, 
count INT, 
damages FLOAT)''') 
el Eh engine.result.ResultProxy object at 0x1017efb10> 





r 

















运行 函数 conn.execute() 返回 到 一 个 SQLAlchemy 的 对 象 ResultProxy。 马 上 你 会 看 到 它 
的 用 处 。 

顺便 提 一 句 ， 如 果 你 之 前 从 未 创建 过 数据 库 表单 ， 祝 贺 你 ， 可 以 把 它 从 你 的 人 生 清 单 
(bucket list) 去 掉 了 。 

现在 向 空 表单 里 插入 三 组 数据 : 


>>> ins = 'INSERT INTO zoo (critter, count, damages) VALUES (?，?，?) 
>>> conn.execute(ins, 'duck', 10, 0.0) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017efb50> 

>>> conn.execute(ins, 'bear', 2, 1000.0) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017ef090> 

>>> conn.execute(ins, 'weasel', 1, 2000.0) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017ef450> 


接 下 来 在 数据 库 中 查询 放 入 的 所 有 数据 ; 
>>> rows = Conn.execute( "SELECT * FROM zoo ') 
在 SQLAlchemy 中 ，rows 不 是 一 个 列表 ， 不 能 直接 输出 : 


>>> print(rows) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017ef9d0> 


但 它 可 以 像 列表 一 样 和 迭代 ， 每 次 可 以 得 到 其 中 的 一 行 ， 


>>> for row in rows: 
print(row) 














es 





('duck', 10, 0.0) 
('bear', 2, 1000.0) 
('weasel', 1, 2000.0) 


这 个 例子 几乎 和 SQLite DB-API 提 到 的 示例 是 一 样 的 。 一 个 优势 是 在 程序 开始 时 不 需要 导 
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入 数据 库 驱 动 程 序 ，SQLAlchemy 从 连接 字符 串 (connection string) 已 经 指定 了 。 改 变 连 
雪 字 符 串 就 可 以 使 得 代码 可 移植 到 另 一 种 数据 库 。 另 外 一 个 优势 是 SQLAlchemy 的 连接 池 ， 
如 果 想 了 解 更 多 可 以 阅读 它 的 文档 (http://docs.sqlalchemy.org/en/latest/core/pooling.htm!l) 。 
2. SQL 表达 式 语言 
再 往 上 一 层 是 SQLAlchemy 的 SQL 表达 式 语 言 。 它 介绍 了 创建 多 种 SQL 操作 的 函数 。 相 
比 引 敬 层 ， 它 能 处 理 更 多 SQL 方言 的 差异 ， 对 于 关系 型 数据 库 应 用 是 一 种 方便 的 中 间 层 解 
决 方案 。 
下 面 介 绍 如 何 创建 和 管理 数据 表 zoo。 同 样 也 是 一 个 程序 的 连续 片段 。 
导入 和 连接 同 之 前 的 完全 一 样 : 

>>> import sqlalchemy as sa 


>>> Conn = sa.create engine('sqlite://') 


在 定义 表单 zoo 时 ， 开 始 使 用 一 些 表 达 式 语言 代替 SQL: 


>>> meta = sa.MetaData() 

>>> Zoo = sa.Table('zo00', meta, 
sa.Column('critter', sa.String, primary_key=True), 
sa.Column('count', sa.Integer), 
sa.Column('damages' , sa.Float) 
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Ss meta.create_all(conn) 
注意 多 行 调用 时 的 圆 括 号 。Table() 方法 的 调用 结构 和 表单 的 结构 相 一 致 ， 此 表单 中 包含 
三 列 ， 在 Table() 方法 调用 时 括号 内 部 也 调用 三 次 Column()。 
同时 ，zoo 是 连接 SQL 数据 库 和 Python 数据 结构 的 一 个 对 象 。 
使 用 表达 式 语言 的 更 多 函数 插入 数据 : 


. Conn.execute(zoo.insert(('bear', 2, 1000.0))) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017ea910> 
>>> conn.execute(zoo.insert(('weasel', 1, 2000.0))) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017eab10> 
>>> conn.execute(zoo.insert(('duck', 10, 0))) 
<sqlalchemy.engine.result.ResultProxy object at 0x1017eac50> 


接 下 来 创建 SELECT 语句 (zoo.select() 会 选择 出 zoo 对 象 表单 的 所 有 项 ， 和 SELECT * 
FROM zoo 在 普通 SQL 做 的 相同 ) : 

>>> result = conn.execute(zoo.seLect()) 
最 后 得 到 结果 : 


>>> rows = result.fetchall() 
>>> print(rows) 
[('bear', 2, 1000.0), ('weasel', 1, 2000.0), ('duck', 10, 0.0)] 


3. 对 象 关系 映射 
在 上 一 节 中 ， 对 象 zoo 是 SQL 和 Python 之 间 的 中 间 层 连接 。 在 SQLAIchemy 的 顶层 ， 对 
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象 关系 映射 (ORM) 使 用 SQL 表达 式 语 言 ， 但 尽量 隐藏 实际 数据 库 的 机 制 。 你 自己 定义 
类 ，ORM 负责 处 理 如 何 读 写 数据 库 的 数据 。 在 ORM 这 个 复杂 短语 背后 ， 最 基本 的 观点 
是 : 同样 使 用 一 个 关系 型 数据 库 ， 但 操作 数据 的 方式 仍然 和 Python 保持 接近 。 


我 们 定义 一 个 类 zoo， 把 它 挂 接 到 ORM。 这 一 次 ， 我 们 使 用 SQLite 的 zoo.db 文件 以 便于 
验证 ORM 是 否 有 效 。 


和 前 两 节 一 样 ， 代 码 片段 实际 上 是 一 个 被 解释 所 隔 开 的 程序 。 如 果 不 明白 其 中 的 部 分 代 
码 ， 不 要 着 急 ，SQLAIchemy 文档 有 全 部 的 细节 ， 这 些 资 料 可 能 会 变 得 更 加 复杂 。 这 里 我 
仅仅 想 让 你 了 解 使 用 该 方法 的 工作 量 ， 从 而 方便 决定 本 章 的 哪 种 方法 更 适合 你 。 


初始 的 import 还 是 一 样 ， 这 一 次 需要 导入 新 的 东西 : 


>>> import sqLaLchemy as sa 
>>> from sqlalchemy.ext.declarative import declarative_base 


连接 数据 库 : 


>>> Conn = sa.create engine('sqlite:///zoo0.db') 


现在 进入 SQLAlchemy 的 ORM， 定 义 类 zoo， 并 关联 它 的 属性 和 表单 中 的 列 : 


>>> Base = decLarative_base() 
>>> class Zoo(Base) : 
_ tabLename_ = 'zo0' 
critter = sa.Column('critter', sa.String, primary_key=True) 
count = sa.Column('count', sa.Integer) 
damages = sa.Column('damages', sa.Float) 
def _ init (self, critter, count, damages): 
self.critter = critter 
self.count = Count 
self.damages = damages 
def __repr__(self): 
return "<Zoo({}, {}, {})>".format(self.critter, self.count, self.damages) 


下 面 这 行 代码 可 以 很 神奇 地 创建 数据 库 和 表单 : 


>>> Base.metadata.create_all(conn) 


然后 通过 创建 Python 对 象 插入 数据 ，ORM 内 部 会 管理 这 些 : 


>>> first = Zoo('duck', 10, 0.0) 

>>> second = Zoo('bear', 2, 1000.0) 
>>> third = Zoo('weasel', 1, 2000.0) 
>>> first 

<Zoo(duck, 10, 0.0)> 


接 下 来 ， 利 用 ORM 接触 SQL， 创 建 连接 到 数据 库 的 会 话 (session) : 


>>> from sqlalchemy.orm import sessionmaker 
>>> Session = sessionmaker(bind=conn) 
>>> session = Session() 


借助 会 话 ， 把 创建 的 三 个 对 象 写 入 数据 库 。add() 函数 增加 一 个 对 象 ， 而 add_all() 增加 一 
个 列表 : 































































































es 























>>> session.add(first) 
>>> session.add all([second, third]) 


最 后 使 整个 过 程 完整 : 


>>> session.commit() 


成 功 了 吗 ? 好 的 ， 在 当前 目录 下 创建 了 文件 zoo.db， 可 以 使 用 命令 行 的 SQLite3 程序 验证 
一 下 : 

$ sqlite3 zoo.db 

SQLite version 3.6.12 

Enter ".help" for instructions 

Enter SQL statements terminated with a ";" 

sqlite> .tables 

Zoo 

sqlite> select * from zoo; 

duck|10|0.0 

bear|2|1000.0 

weasel|1|2000.0 


本 节 的 目的 是 介绍 ORM 和 它 在 顶层 的 实现 过 程 。SQLAlchemy 的 作者 撰写 了 完整 的 教 
程 (http://docs.sqlalchemy.org/en/rel_0_8/orm/tutorial.html)。 阅 读 后 决定 哪 一 级 最 适合 你 
的 需求 : 

。 普通 DB-API 

。 SQLAlchemy 引擎 层 

。 SQLAlchemy 表达 式 语言 

。 SQLAIchemy ORM 


使 用 ORM 避 开 复杂 的 SQL 看 似 是 个 很 自然 的 选择 。 到 底 应 该 使 用 哪 一 个 ”有些 人 认为 应 该 
避免 使 用 ORM (http://blog.codinghorror.com/object-relational-mapping-is-the-vietnam-of-computer- 
science/), 但 其 他 人 觉得 批判 太 重 (http://java.dzone.com/articles/martin-fowler-orm-hate) 。 不 管 谁 
正确 ，ORM 终究 是 一 种 抽象 ， 所 有 的 抽象 在 某 种 情况 下 都 会 出 现 问题 ， 毕 竞 它们 是 有 纶 
漏 的 (http:/www.joelonsoftware.com/articles/LeakyAbstractions.html)。 当 ORM 不 能 满足 需 
求 时 ， 必 须要 和 弄 明 白 在 SQL 如 何 实现 修正 。 借 用 互联 网 的 一 句 话 : 一 些 人 在 遇 到 问题 时 理 
所 当然 地 认为 “我 明白 了 ， 要 使 用 ORM”。 但 现在 他 们 会 有 两 个 困扰 。 谨 慎 使 用 ORM 以 
及 多 用 于 简单 应 用 ,但 是 应 用 足够 简单 的 话 ， 或 许 至 少 可 以 直接 使 用 SQL (或 者 是 SQL 
表达 式 语言 )。 

或 者 尝试 一 些 更 为 简单 的 ， 例 如 dataset (https://dataset.readthedocs.org/en/latest/)。 它 建立 
在 SQLAlchemy 之 上 ， 提 供 对 于 SQL、JSON 以 及 CSV 存储 的 简单 ORM。 


8.5 NoSQL 数 据 存储 


有 些 数据 库 并 不 是 关系 型 的 ， 不 支持 SQL。 它 们 用 来 处 理 庞大 的 数据 集 、 支 持 更 加 灵活 的 
数据 定义 以 及 定制 的 数据 操作 。 这 些 被 统称 为 NoSQL (以 前 的 意思 是 no SQL， 现 在 理解 
为 notonly SQL ) 。 
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8.5.1 dbm family 

dbn 格式 在 NoSQL 出 现 之 前 已 存在 很 入 了 ， 它 们 是 按照 键 值 对 的 形式 储存 ， 封 装 在 应 用 程 
序 〈 例 如 网 页 浏览 器 ) 中 ， 来 维护 各 种 各 样 的 配置 。 从 以 下 角度 看 ，dbm 数据 库 和 Python 
字典 是 类 似 的 : 

。 给 一 个 键 赋值 ， 自 动 保存 到 磁盘 中 的 数据 库 ， 

。 通过 键 得 到 对 应 的 值 。 

下 面 简单 的 例子 中 ，open() 方法 的 第 二 个 参数 'r' 代表 读 ，'w' 代表 写 ; 'c' 表示 读 和 写 ， 
如 果 文 件 不 存在 则 创建 之 : 


>>> import dbm 
>>> db = dbm.open('definitions', 'c') 


同 字典 一 样 创建 键 值 对 ， 给 一 个 键 赋值 : 






































>>> db[ 'mustard'] = 'yellow' 

>>> db['ketchup'] = 'red’ 

>>> db['pesto'] = 'green' 
停 下 来 看 看 数据 库 中 存放 了 什么 : 

>>> len(db) 

3 

>>> db['pesto'] 

b'green’ 





现在 关 掉 数据 库 ， 然 后 重新 打开 验证 它 是 否 被 完整 保存 : 


>>> db.close() 

>>> db = dbm.open('definitions', 'r') 
>>> db['mustard '] 

b'yellow' 


键 和 值 都 以 字 节 保存 ， 因 此 不 能 对 数据 库 对 象 db 进行 达 代 ， 但 是 可 以 使 用 函数 len() 得 到 
键 的 数目 。 注 意 get() 和 setdefault() 函数 只 能 用 于 字典 的 方法 。 











8.5.2 memcached 


memcached (http://memcached.org/) 是 一 种 快速 的 、 内 存 键 值 对 象 的 缓存 服务 器 。 它 一 
般 置 于 数据 库 之 前 ， 用 于 存储 网 页 服务 器 会 话 数 据 。Linux 和 OS X 点 此 链接 (https:/ 
code.google.com/p/memcached/wiki/NewInstallFromPackage) 下 载 ， 而 Windows 系统 在 此 
(http://zurmo.org/wiki/installing-memcache-on-windows) 下 载 。 如 果 你 想 要 尝试 使 用 ， 需 要 
一 个 memcached 服务 器 和 Python 的 驱动 程序 。 


当然 存在 很 多 这 样 的 驱动 程序 ， 其 中 能 在 Python 3 使 用 的 是 python3-mencached (https:// 
github.com/eguven/python3-memcached)， 可 以 通过 下 面 这 条 命令 安装 : 















































$ pip install python-memcached 


连接 到 一 个 memcached 服务 器 之 后 ， 可 以 做 以 下 事项 : 
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。 赋值 和 取 值 
。 其 中 一 个 值 的 自 增 或 者 自 减 
。 删除 其 中 一 个 键 


数据 在 memcached 并 不 是 持久 化 保存 的 ， 后 面 的 可 能 会 覆盖 早 些 写 入 的 数据 ， 这 本 来 就 是 
它 的 固有 特性 ， 因 为 它 作 为 一 个 缓存 服务 器 ， 通 过 舍弃 旧 数 据 避 免 程 序 运行 时 内 存 不 足 的 
问题 。 


你 也 可 以 同时 连接 到 多 个 memcached 服务 器 。 不 过 下 面 的 例子 只 连 到 一 个 : 


>>> import memcache 

>>> db = memcache.Client(['127.0.0.1:11211']) 
>>> db.set('marco', 'polo') 

True 

>>> db.get('marco' 
"potLo' 

>>> db.set('ducks', 0) 
True 

>>> db.get('ducks' 
0 

>>> db.incr('ducks', 2) 
2 

>>> db.get('ducks') 

2 






































ast 


Vet 


8.5.3 Redis 


Redis (http://redis.io/) 是 一 种 数据 结构 服务 器 (data structure server)。 和 memcached 类 似 ， 
Redis 服务 器 的 所 有 数据 都 是 基于 内 存 的 〈 现 在 也 可 以 选择 把 数据 存放 在 磁盘 )。 不 同 于 
memcached，Redis 可 以 实现 : 


。 存储 数据 到 磁盘 ， 方 便 断 电 重启 和 提升 可 靠 性 ， 
。 保存 旧 数 据 ， 

。 提供 多 种 数据 结构 ， 不 限于 简单 字符 串 。 
Redis 的 数据 类 型 和 Python 很 相近 ，Redis 服务 器 会 是 一 个 或 多 个 Python 应 用 程序 之 间 共 
享 数据 的 非常 有 帮助 的 中 间 件 。 据 我 的 经 验 ， 值 得 用 一 定 的 篇 幅 介 绍 它 。 

Python 的 Redis 驱动 程序 redis-py 在 GitHub (https://github.com/andymccurdy/redis-py) 托 


管 代码 和 测试 用 例 ， 也 可 在 此 参考 在 线 文 档 (http://redis-py.readthedocs.org/en/latest/)。 可 
以 使 用 这 条 命令 安装 它 : 




















$ pip install redis 
Redis 服务 器 自身 就 有 好 用 的 文档 。 如 果 在 本 地 计算 机 (网 络 名 为 Locathost) 安装 和 启动 
了 Redis 服务 器 ， 就 可 以 开始 尝试 下 面 的 程序 。 
1. 字符 串 
具有 单一 值 的 一 个 键 被 称 作 Redis 的 字符 串 。 简 单 的 Python 数据 类 型 可 以 自动 转换 成 Redis 
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字符 串 。 现 在 连接 到 一 些 主机 (默认 Locathost) 以 及 端口 (默认 6379) 上 的 Redis 服务 器 : 


>>> import redis 
>>> conn = redis.Redis() 


redis.Redis( “localhost”) 或 者 redis.Redis('localhost'，6379) 会 得 到 同样 的 结果 。 
列 出 所 有 的 键 (目前 为 空 ) : 


>>> conn.keys('*') 


[] 
给 键 'secret' 赋值 一 个 字符 串 ， 给 键 'carats' 赋 一 个 整数 ， 给 键 'fever' 赋 一 个 浮 点 数 : 


>>> conn.set('secret', 'ni!') 

















True 

>>> conn.set('carats', 24) 
True 

>>> conn.set('fever', '101.5') 
True 


通过 键 反 过 来 得 到 对 应 的 值 ， 
>>> conn.get('secret') 
b'ni!' 
>>> conn.get('carats') 
b'24" 
>>> conn.get('fever') 
b'101.5"' 


这 里 的 setnx() 方法 只 有 当 键 不 存在 时 才 设 定 值 : 


>>> conn.setnx('secret', 'icky-icky-icky-ptang-zoop-boing!') 
False 


方法 运行 失败 ， 因 为 之 前 已 经 定义 了 'secret': 


>>> conn.get('secret') 
b'ni!' 


方法 getset() 会 返回 旧 的 值 ， 同 时 赋 新 的 值 : 


>>> conn.getset('secret', 'icky-icky-icky-ptang-zoop-boing!') 
b'ni!' 


先 不 急 着 继续 下 面 的 内 容 ， 看 之 前 的 操作 是 否 可 以 运行 ? 


>>> conn.get('secret') 
b'icky-icky-icky-ptang-zoop-boing!' 


使 用 函数 getrange() 得 到 子 串 ( 偏 移 量 offset: 0 代表 开始 ，-1 代表 结束 ) : 


>>> conn.getrange('secret', -6, -1) 
b'boing!' 


使 用 函数 setrange() 替换 子 串 〈 从 开始 位 置 偏 移 ) : 


























>>> conn.setrange('secret', 0, 'ICKY') 
32 

>>> conn.get('secret') 
b'ICKY-icky-icky-ptang-zoop-boing!' 


接 下 来 使 用 函数 mset() 一 次 设置 多 个 键 值 ; 


>>> conn.mset({'pie': 'cherry', 'cordial': 'sherry'}) 
True 


使 用 函数 mget() 一 次 取 到 多 个 键 的 值 : 


>>> conn.mget(['fever', 'carats']) 
[b'101.5', b'24'] 


使 用 函数 detete() 删 掉 一 个 键 : 


>>> conn.delete( 'fever') 
True 


使 用 函数 incr() 或 者 incrbyfloat() 增加 值 ， 函 数 decr() 减少 值 : 


>>> conn.incr('carats') 









































25 

>>> conn.incr('carats', 10) 

35 

>>> conn.decr('carats') 

34 

>>> conn.decr('carats', 15) 

19 

>>> conn.set('fever', '101.5') 
True 

>>> conn.incrbyfloat('fever') 
102.5 

>>> conn.incrbyfloat('fever', 0.5) 
103.0 


不 存在 国 数 decrbyfloat()， 可 以 用 增加 负数 代替 : 


>>> conn.incrbyfloat('fever', -2.0) 
101.0 


2. 列表 
Redis 的 列表 仅 能 包含 字符 串 。 当 第 一 次 插入 数据 时 列表 被 创建 。 使 用 函数 Lpush() 在 开 
处 插入 : 


>>> Conn.Lpush('zoo' ，'bear ') 
1 


在 开始 处 插入 超过 一 项 : 


>>> conn.lpush('zo00', 'alligator', 'duck') 
3 


使 用 Linsert() 函数 在 一 个 值 的 前 或 者 后 插入 : 








. 


始 
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>>> Conn.Linsert('zoo' ， 'before', 'bear', 'beaver') 
4 
>>> conn.linsert('z00', 'after', 'bear', 'cassowary 
5 


使 用 lset() 函数 在 偏 移 量 处 插入 (列表 必须 已 经 存在 ) : 





























') 


>>> conn.lset('z00', 2, 'marmoset') 
True 
使 用 rpush() 函数 在 结尾 处 插入 : 
>>> conn.rpush('zoo0', 'yak') 
6 
使 用 Lindex() 函数 取 到 给 定 偏 移 量 处 的 值 : 
>>> conn.lindex('zo0', 3) 
b'bear 
使 用 Lrange() 函数 取 到 给 定 偏 移 量 范围 (0~-1 代表 全 部 ) 的 所 有 值 : 


>>> conn.lrange('zo0', 0, 2) 





[b'duck', b'alligator', b'marmoset'] 
使 用 ttrim() 函数 仅 保留 列表 中 给 定 范围 的 值 : 

>>> conn.ltrim('zo0', 1, 4) 

True 











使 用 函数 Lrange() 得 到 


>>> conn.lrange('zo0', 0, -1) 
[b'alligator', b'marmoset', b'bear', b'cassowary'] 





定 范 围 的 的 值 (0~-1 代表 全 部 ) : 





第 10 章 会 介绍 如 何 使 用 Redis 列表 以 及 发 布 - 订阅 (publish-subscribe) 用 于 实现 任务 


队列 。 
3. 哈 希 表 





Redis 的 哈 希 表 类 似 于 Python 中 的 字典 ， 但 它 仅 包含 字符 串 ， 
进行 圣 套 。 下 面 的 例子 创建 了 一 个 Redis 的 哈 希 表 song， 并 对 它 进 行 操作 。 











使 用 函数 hmset() 在 哈 希 表 song 设置 字段 do 和 字段 re 的 值 : 
>>> conn.hmset('song', {'do': 'a deer', 're': 
True 


使 用 函数 hset() 设置 一 个 单一 字段 值 : 


>>> conn.hset('song', 'mi', 
1 


使 用 函数 hget() 取 到 一 个 字段 的 值 : 


>>> conn.hget('song', 
b'a note to foLLow re' 





'a Note to follow re') 














'mi') 

















因此 只 能 有 一 层 结 构 ， 不 能 


"about a deer'}) 








使 用 函数 hnget() 取 到 多 个 字段 的 值 : 


>>> conn.hmget('song', 're', 'do') 
[b'about a deer', b'a deer'] 


使 用 函数 hkeys() 取 到 所 有 字段 的 键 : 


>>> conn.hkeys('song') 
[b'do', b're', b'mi'] 


使 用 函数 hvals() 取 到 所 有 字段 的 值 : 


>>> conn.hvals('song') 
[b'a deer', b'about a deer', b'a note to follow re'] 


使 用 函数 hlen() 返回 字段 的 总 数 : 


>>> conn.hlen('song') 
3 


使 用 函数 hgetall() 取 到 所 有 字段 的 键 和 值 : 


>>> Conn.hgetaLL(' song ' ) 
{b'do': b'a deer', b're': b'about a deer', b'mi': b'a note to follow re'} 


使 用 函数 hsetnx() 对 字段 中 不 存在 的 键 赋值 : 


>>> conn.hsetnx('song', 'fa', 'a note that rhymes with La') 
1 


4. 集合 
正如 你 会 在 下 面 看 到 的 例子 所 示 ，Redis 的 集合 和 Python 的 集合 是 完全 类 似 的 。 
在 集合 中 添加 一 个 或 多 个 值 : 


>>> conn.sadd('zo0', 'duck', 'goat', 'turkey') 
3 


取得 集合 中 所 有 值 的 数目 : 


>>> Conn.scard('zoo') 
3 


返回 集合 中 的 所 有 值 : 


>>> conn.smembers('z00') 
{b'duck', b'goat', b'turkey'} 


从 集合 中 删 掉 一 个 值 : 


>>> Conn.srem('zoo' ， 'turkey') 
True 


新 建 一 个 集合 以 展示 一 些 集合 间 的 操作 : 


>>> conn.sadd('better zo0', 'tiger', 'wolf', 'duck') 
0 
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回 集合 zoo 和 集合 better_zoo 的 交集 : 


>>> conn.sinter('zo0', 'better zoo0') 
{b'duck'} 


集合 zoo 和 集合 better_zoo 的 交集 ， 二 


>>> Conn.Ssinterstore( 'fowL_zoo' ， 
1 


个 会 在 集合 fowL_zoo 中 ? 


获得 


哪 一 


>>> Conn.Ssmembers( 'fowL_zoo ') 
{b'duck'} 


回 集合 zoo 和 集合 better_zoo 的 并 集 : 


>>> conn.sunion('zoo', 
{b'duck', b'goat', 





'better_zoo0') 
b'wolf', b'tiger'} 


存储 并 集结 果 到 新 的 集合 fabulous_zoo: 


>>> Conn.sunionstore( 'fabuLous_zoo ' ， 
4 

>>> Conn.Ssmembers( 'fabuLous_zoo ' ) 
{b'duck', b'goat', b'wolf', b'tiger'} 


"Z00 





存储 到 新 集合 fowL_zoo: 


"better_zoo' ) 


2 


"Zoo0' ， "better_zoo ') 


什么 是 集合 zoo 包含 而 集合 better_zoo 不 包含 的 项 ?使 用 函数 sdiff() 得 到 它们 的 差 集 





sdiffstore() 将 存储 到 新 集合 zo0_sale: 


>>> conn.sdiff('zoo', 
{b'goat'} 

>>> Conn.sdiffstore('zoo_salLe ' ， 
1 

>>> conn.smembers('z00_sale') 
{b'goat'} 


5. 有 序 集合 
Redis 中 功能 最 强大 的 数据 类 型 之 一 是 有 序 


"better_zoo') 


"Z00 




















无 二 的 ， 但 是 每 一 个 值 都 关联 对 应 浮 点 值 
有 序 集合 有 很 多 用 途 : 

。 排行 榜 

。 二 级 索引 

。 时 间 序 列 (把 时 间 惟 作为 分 数 ) 

我 们 把 最 后 一 个 (时 间 序 列 ) 作为 例子 ， 通 


使 用 Unix 的 epoch 值 (更 多 介绍 


>>> import time 

>>> now = time.time() 
>>> now 
1361857057.576483 


分 数 (score)。 
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"better_zoo') 


各 








时 :> 


表 (sorted set 或 者 zset ) 。 1 


可 以 通过 值 或 者 分 数 取得 每 一 











过 时 间 改 跟踪 用 户 的 登录 。 在 这 里 ， 时 间 表 达 
它 由 Python 的 time() 函数 返回 : 











首先 增加 第 一 个 访客 : 


>>> conn.zadd('logins', 'smeagol', now) 
1 


5 分钟 后 ， 又 一 名 访客 : 


>>> conn.zadd('logins', 'sauron', now+(5*60)) 
1 


两 小 时 后 : 


>>> conn.zadd('logins', 'bilbo', now+(2*60*60)) 
1 


一 天 后 ， 负 载 并 不 是 很 多 : 


>>> conn.zadd('logins', 'treebeard', now+(24*60*60)) 
1 


那么 bilbo 登录 的 次 序 是 什么 ? 


>>> conn.zrank('logins', 'bilbo') 
2 


登录 时 间 呢 ? 


>>> conn.zscore('logins', 'bilbo') 
1361864257.576483 


按照 登录 的 顺序 查看 每 一 位 访客 : 


>>> conn.zrange('logins', 0, -1) 
[b'smeagol', b'sauron', b'bilbo', b'treebeard'] 


附带 上 他 们 的 登录 时 间 : 


>>> conn.zrange('logins', 0, -1, withscores=True) 


[(b'smeagol', 1361857057.576483), (b'sauron', 1361857357.576483), 
(b'bilbo', 1361864257.576483), (b'treebeard', 1361943457.576483)] 


6. 位 图 




















位 图 (bit) 是 一 种 非常 省 空间 且 快 速 的 处 理 超大 集合 数字 的 方式 。 假 设 你 有 一 个 很 多 用 户 
注册 的 网 站 ， 想 要 跟踪 用 户 的 登录 频率 、 在 某 一 天 用 户 的 访问 量 以 及 同一 用 户 在 固定 时 间 
内 的 访问 频率 ， 等 等 。 当 然 ， 你 可 以 使 用 Redis 集合 ， 但 如 果 使 用 递增 的 用 户 ID， 位 图 的 








方法 更 加 简洁 和 快速 。 











首先 为 每 一 天 创建 一 个 位 集合 (bitset)。 为 了 测试 ， 我 们 仅 使 用 3 天 和 部 分 用 户 ID: 


>>> days = ['2013-02-25', '2013-02-26','2013-02-27'] 


>>> big_spender = 1089 
>>> tire kicker = 40459 
>>> late_joiner = 550212 





每 一 天 是 一 个 单独 的 键 ， 对 应 的 用 户 ID 设置 位 ， 例 如 第 一 天 (2013-62-25) 有 来 自 big_ 


spender(ID 1089) 和 tire_kicker(ID 40459) 的 访问 记录 : 
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>>> conn.setbit(days[0], big_spender, 1) 
0 
>>> conn.setbit(days[0], tire kicker, 1) 
0 


第 二 天 用 户 big_spender 又 有 访问 : 


>>> conn.setbit(days[1], big_spender, 1) 
0 


接 下 来 的 一 天 ， 朋 友 big_spender 再 次 访问 ， 并 又 有 新 人 late_joiner 访问 : 


>>> conn.setbit(days[2], big_spender, 1) 
0 
>>> conn.setbit(days[2], late_ joiner, 1) 
0 


现在 统计 得 到 这 三 天 的 日 访客 数 : 


>>> for day in days: 
conn.bitcount(day) 

















2 
1 
2 


查看 某 一 天 某 个 用 户 是 否 有 访问 记录 ? 
>>> conn.getbit(days[1], tire kicker) 
0 
显然 tire_kicker 在 第 二 天 没有 访问 。 
有 多 少 访客 每 天 都 会 访问 ? 
>>> conn.bitop('and', 'everyday', *days) 
68777 


>>> conn.bitcount('everyday') 
1 


让 你 猜 三 次 他 是 谁 : 


>>> conn.getbit('everyday', big_ spender) 
1 


最 后 ， 这 三 天 中 独立 的 访客 数量 有 多 少 ? 


>>> conn.bitop('or', 'alldays', *days) 
68777 

>>> conn.bitcount('alldays') 

3 


7. 缓存 和 过 期 

所 有 的 Redis 键 都 有 一 个 生存 期 或 者 过 期 时 间 (expiration date) ， 默 认 情况 下 ， 生 存 期 是 永 
入 的 。 也 可 以 使 用 expire() 函数 构造 Redis 键 的 生存 期 ， 下 面 看 到 的 设置 值 是 以 秒 为 单位 
的 数 : 























>>> import time 


>>> key = 'now you see it’ 

>>> conn.set(key, 'but not for long') 
True 

>>> conn.expire(key, 5) 

True 

>>> conn.ttl(key) 

5 


>>> conn.get(key) 
b'but not for Long' 
>>> time.sleep(6) 
>>> conn.get(key) 
>>> 


expireat() 命令 给 一 个 键 设 定 过 期 时 间 ， 对 于 更 新 缓存 是 有 帮助 的 ， 并 且 可 以 限制 登录 会 话 。 





8.5.4 其 他 的 NoSQL 








NoSQL 服务 器 都 要 处 理 远 超过 内 存 的 数据 ， 并 且 很 多 服务 器 要 使 用 多 台 计 算 机 。 表 8-6 列 





表 8-6: NoSQL 数 据 库 


Site 


出 了 值得 注意 的 服务 器 和 它们 的 Python 库 。 





Python API 





Cassandra (http://cassandra.apache.org/) 
CouchDB (http://couchdb.apache.org/) 

HBase (http://hbase.apache.org/) 

Kyoto Cabinet (http://fallabs.com/kyotocabinet/) 
MongoDB (http:/www.mongodb.org/) 

Riak (http://basho.com/riak/) 


8.6 全 文 数据 库 


pycassa (https://github.com/pycassa/pycassa) 
couchdb-python (https://github.com/djc/couchdb-python) 
happybase (https://github.com/wbolster/happybase) 
kyotocabinet (http://fallabs.com/kyotocabinet/pythondoc/) 
mongodb (http://api.mongodb.org/python/current/) 
riak-python-client (https://github.com/basho/riak-python- 


client) 





最 后 ， 有 一 类 特殊 的 数据 库 用 于 作 全 文 检索 。 它 们 对 所 有 内 容 都 建 索 引 ， 所 以 你 可 以 检索 
到 吟 诵 风车 和 满 车 奶酪 的 诗歌 。 表 8-7 是 一 些 流 行 的 开源 软件 以 及 它们 的 Python API。 














表 8-7: 全 文 数据 库 


Site 





Python API 





Lucene (http:Wlucene.apache.org/) 
Solr (http:Wlucene.apache.org/solr ) 
ElasticSearch (http:/www.elasticsearch.org/) 


Sphinx (http://sphinxsearch.com/) 


Xapian (http://xapian.org/) 
Whoosh (https://bitbucket.org/mchaput/whoosh/ 


wiki/Home) 


pylucene (http://lucene.apache.org/pylucene/) 
SolPython (http://wiki.apache.org/solr/SolPython) 
pyes (https://github.com/aparo/pyes/) 


sphinxapi (https://code.google.com/p/sphinxsearch/source/ 


browse/trunk/api/sphinxapi.py) 
xappy (https://code.google.com/p/xappy/) 
由 Python 编写 ， 包 含 API 
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8.7 练习 


(1) 将 字符 串 'This is a test of the emergency text system' 赋 给 变量 test1， 然 后 把 它 
写 到 文件 test.txt。 
(2) 打开 文件 testtxt， 读 文件 内 容 到 字符 串 test2。test1 和 test2 是 一 样 的 吗 ? 
(3) 保存 这 些 文本 到 books.csv 文件 。 注 意 ， 字 上 段 间 是 通过 逗号 阳 开 的 ， 如 果 字 段 中 含有 喜 
号 需要 在 整个 字段 加 引号 。 
author ,book 


J R R Tolkien,The Hobbit 
Lynne Truss,"Eats, Shoots & Leaves" 


(4) 使 用 csv 模块 和 它 的 DictReader 方法 读 取 文件 books.csv 到 变量 books。 输 出 变量 books 
的 值 。DictReader 可 以 处 理 第 二 本 书 题目 中 的 引号 和 喜 号 吗 ? 
(5) 创建 包含 下 面 这 些 行 的 CSV 文件 books.csv: 
title,author ,year 
The Weirdstone of Brisingamen,Alan Garner,1960 
Perdido Street Station,China Miéville,2000 
Thud! ,Terry Pratchett ,2005 


The Spellman Files,Lisa Lutz,2007 
Small Gods,Terry Pratchett ,1992 


(6) 使 用 sqLite3 模块 创建 一 个 SQLite 数据 库 books.db 以 及 包含 字段 title (text)、author 
(text) 以 及 year (integer) 的 表单 books。 

(7) 读 取 文 件 books.csv， 把 数据 插入 到 表单 book。 

(8) 选择 表单 book 中 的 title 列 ， 并 按照 字母 表 顺 序 输 HH 

(9) 选择 表单 book 中 所 有 的 列 ， 并 按照 出 版 顺序 输出 。 

(10) 使 用 sqlalchenmy 模块 连接 到 sqlite3 数据 库 books.db， 按 照 (8) 一 样 ， 选 择 表单 book 中 
的 title 列 ， 并 按照 字母 表 顺 序 输出 。 

(11) 在 你 的 计算 机 安装 Redis 服务 器 和 Python 的 redis 库 (pip install redis)。 创 建 一 
个 Redis 的 哈 希 表 test， 包 含 字段 count(1) 和 name('Fester Bestertester' )， 输 出 
test 的 所 有 字段 。 

(12) 自 增 test 的 count 字段 并 输出 它 。 
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CERN 是 一 个 很 适合 当 作 007 老 梨 的 粒子 物理 研究 所 ， 横 跨 了 法 国 和 瑞士 的 边界 。 幸 运 的 
是 ，CERN 的 目标 并 不 是 统治 世界 ， 而 是 研究 宇宙 的 本 质 。 这 项 工作 给 CERN 带 来 了 海量 
的 数据 ， 对 物理 学 家 和 计算 机 科学 家 来 说 极 具 挑 战 。 
1989 年 ， 英 国 科学 家 蒂 姆 . 伯 纳 斯 = 李 首 次 提出 可 以 在 CERN 和 研究 机 构 之 间 传 递 信息 。 
他 称 之 为 万 维 网 ， 并 将 其 架构 提炼 成 三 个 非常 简单 的 概念 。 
。 HTTP ( 超 文本 传输 协议 ) 

规定 了 网 络 客户 端 和 服务 器 “之 间 如 何 交换 请 求 和 响应 。 
。 HTML ( 超 文本 标记 语言 ) 

结果 的 展示 格式 。 
。 URL (统一 资源 定位 符 ) 
唯一 表示 服务 器 和 服务 器 上 资源 的 方法 。 
在 最 简单 的 场景 中 ， 一 个 Web 客户 端 〈 我 觉得 伯 纳 斯 - 李 应 该 是 第 一 个 使 用 术语 浏览 器 
的 人 ) 通过 HTTP 连接 到 一 个 Web 服务 器 ， 请 求 一 个 URL， 收 到 HTML。 
他 编写 了 第 一 个 Web 浏览 器 和 第 一 个 Web 服务 器 程序 ， 后 者 部 署 在 一 台 NeXT 计算 机 
上 。NeXT 计算 机 是 由 一 家 短命 的 公司 研发 出 来 的 ， 这 家 公司 是 乔布斯 在 离开 苹果 公司 期 
间 创 办 的 。Web 真正 开始 发 展 壮 大 是 在 1993 年 ， 这 一 年 伊利 诺 伊 大 学 的 一 群 学 生发 布 了 
Mosaic Web 浏览 器 (支持 Windows、Macintosh 和 Unix) 和 NCSA httpd 服务 器 程序 。 当 
































注 1: 下 文 会 出 现 三 个 名 词 : 服务 器 、Web 服务 器 和 服务 端 。 服 务 器 指 的 是 物理 意义 上 的 服务 器 ， 也 就 是 主 
机 或 者 云 服务 器 ;Web 服务 器 指 的 是 服务 器 上 负责 Web 服务 的 软件 ， 比 如 Nginx、Apache， 等 等 。 
服务 端 包含 服务 器 端的 所 有 服务 ， 比 如 Web 服务 器 、API， 等 等 。 一 一 译 者 注 
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我 下 载 它们 并 用 它们 来 搭建 网 站 时 ， 根 本 没有 想到 Web 和 互联 网 会 迅速 演变 成 我 们 日 常 
生活 的 一 部 分 。 当 时 互联 网 仍然 是 官方 并 且 非 商业 性 的 ， 全 世界 大 概 有 500 个 公开 的 Web 
服务 器 (http://home.web.cern.ch/topics/birth-web)。 到 1994 年 底 ，Web 服务 器 的 数量 已 经 
增长 到 了 10 000。 互 联网 开始 开放 商业 使 用 ，Mosaic 的 作者 创立 了 Netscape 来 编写 商用 
Web 软件 。 从 Netscape 上 市 就 可 帘 见 当时 互联 网 热潮 的 一 班 ， 从 那 之 后 ，Web 的 爆发 式 
增长 就 再 也 没有 停止 过 。 

几乎 每 种 计算 机 语言 都 被 用 来 编写 过 Web 客户 端 和 Web 服务 器 程序 。 动 态 语言 Perl、 
PHP 和 Ruby 更 是 独 领 风骚 。 本 章 会 说 明 为 什么 Python 在 Web 相关 的 每 个 层面 都 是 一 种 
非常 优秀 的 语言 。Web 大 致 有 三 层 。 

。 客户 端 : 访问 远程 网 站 。 

。 服务 端 : 为 网 站 和 Web API 提供 数据 。 

。 Web API 和 服务 : 用 另 一 种 不 同 于 可 视 化 网 页 的 方式 来 交换 数据 。 


在 本 章 结尾 的 练习 中 ， 我 们 还 会 搭建 一 个 真正 的 交互 式 网 站 。 


9.1 Web 客 户 端 


互联 网 最 底层 的 网 络 传输 使 用 的 是 传输 控制 协议 /因特网 协议 ， 更 常用 的 叫 法 是 TCP/IP 
(详情 参见 11.2.3 节 )。 这 些 协议 会 在 计算 机 之 间 传 输 字 节 ， 但 是 并 不 关心 这 些 字 节 的 含 
义 ， 后 者 由 更 高 层 的 协议 一 一 用 于 特定 目的 的 语法 定义 一 一 来 处 理 。HTTP 是 Web 数据 交 
换 的 标准 协议 。 

Web 是 一 个 客户 端 一 服务 器 系统 。 客 户 端 向 服务 器 发 起 请 求 : 它 会 创建 一 个 TCP/IP 连接 ， 
通过 HTTP 发 送 URL 和 其 他 信息 并 接收 一 个 响应 。 

响应 的 格式 也 由 HTTP 定义 。 其 中 包括 请 求 的 状态 以 及 (如果 请 求 成 功 ) 响应 的 数据 和 格式 。 
最 著名 的 Web 客户 端 是 Web 浏览 器 。 它 可 以 用 很 多 种 方式 来 发 起 HTTP 请 求 。 你 可 以 在 
地 址 栏 中 输入 URL 或 者 点 击 网 页 上 的 链接 来 手动 发 起 请 求 。 通 常 来 说 ， 请 求 所 返回 的 数 
会 被 当 作 网 页 展示 一 一 HTML 文档 、JavaScript 文件 、CSS 文件 和 图 片 一 一 但 也 可 以 是 
其 他 类 型 的 数据 ， 它 们 并 不 会 被 用 于 展示 。 
HTTP 的 一 个 重要 概念 是 无 状态 。 你 发 起 的 每 个 HTTP 请 求 都 和 其 他 请 求 互相 独立 。 这 可 
以 简化 基本 的 Web 操作 ， 但 是 会 让 其 他 的 操作 变 得 更 复杂 。 下 面 列举 其 中 一 些 。 
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。 组 让 

没有 改变 的 远程 内 容 应 该 保存 在 Web 客户 端 中 ， 并 避免 重新 从 服务 器 下 载 。 
。 Session 

购物 网 站 必须 记 住 你 购物 车 中 的 商品 。 
。 认证 





使 用 用 户 名 和 密码 登录 之 后 ， 网 站 应 该 记 住 你 的 登录 状态 。 
可 以 使 用 cookie 来 解决 无 状态 带 来 的 问题 。 服 务 器 可 以 在 cookie 中 加 入 一 些 特殊 的 信息 ， 
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这 样 当 客户 端 发 回 cookie 时 就 可 以 根据 cookie 内 容 来 进行 判断 。 


9.1.1 使 用 telnet 进 行 测试 


HTTP 是 基于 文本 的 协议 ， 所 以 你 实际 上 可 以 自己 编写 协议 内 容 来 进行 Web 测试 。 上 古老 的 
telnet 程序 可 以 让 你 连接 到 目标 服务 器 和 端口 并 输入 命令 。 


下 面 以 大 家 最 常用 的 测试 站 点 Google 为 例 ， 来 获取 它 的 一 些 首页 信息 。 输 入 : 


$ telnet www.google.com 80 


如 果 google.com 的 80 端口 有 一 个 Web 服务 器 程序 (我 觉得 这 是 肯定 的 ) ，tetnet 会 打印 
出 一 些 确 认 信 息 并 显示 一 个 空白 行 供 你 输入 信息 : 


Trying 74.125.225.177... 
Connected to www.google.conm. 
Escape character is '^]'. 


现在 ， 向 telnet 中 输入 一 条 真实 的 HTTP 命令 并 发 送 给 Google 的 Web 服务 器 。 最 常用 的 
HTTP 命令 ( 当 你 在 浏览 器 地 址 栏 中 输入 URL 时， 实际 上 发 送 的 就 是 这 条 命令 ) 是 GET。 
这 会 获取 指定 资源 的 内 容 ， 比 如 一 个 HTML 文件 ， 并 返回 给 客户 端 。 在 我 们 的 第 一 次 测试 
中 ,使 用 的 是 HITP 命令 HEAD ， 这 会 获取 一 些 和 资源 相关 的 基本 信息 : 

HEAD / HTTP/1.1 


HEAD / 会 发 送 HTTP HEAD 动词 (命令) 来 获取 和 首页 (/) 相关 的 信息 。 再 次 按 下 回 车 来 
发 送 一 个 空 行 ， 这 样 远程 服务 器 就 知道 你 已 经 输入 完毕 ， 正 在 等 待 响应 。 你 会 收 到 一 个 下 
面 这 样 的 响应 (我 们 用 .…. 省 略 了 一 些 内 容 ， 这 样 页 面 会 比较 整洁 ) : 


HTTP/1.1 200 OK 
Date: Sat, 26 Oct 2013 17:05:17 GMT 
Expires: -1 
Cache-Control: private, max-age=0 
Content-Type: text/html; charset=IS0-8859-1 
Set-Cookie: PREF=ID=962a70e9eb3db9d9:FF=0:TM=1382807117:LM=1382807117:S=y... 
expires=Mon, 26-0ct-2015 17:05:17 GMT; 
path=/; 
domain=.google.com 
Set-Cookie: NID=67=hTvtVC7dZJmZzGktimbwVbNZxPQNaDijCz716B1LS56GM9qvsqqeIGb... 
expires=Sun, 27-Apr-2014 17:05:17 GMT 
path=/; 
domain=.google.com; 
HttpOnly 
P3P: CP="This is not a P3P policy! See http://www.google.com/support/accounts... 
Server: gws 
X-XSS-Protection: 1; mode=block 
X-Frame-Options: SAMEORIGIN 
ALternate-ProtocoL: 80:quic 
Transfer-Encoding: chunked 



























































这 些 是 HITP 响应 头 和 对 应 的 值 。 甚 中 一 些 ， 比 如 Date 和 Content-Type， 是 必要 的 。 其 他 
的 ， 比 如 Set-Cookie， 是 用 来 在 多 次 访问 〈 稍 后 会 讨论 状态 管理 ) 之 间 追 踪 你 的 活动 的 。 当 
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你 发 起 HTTP HEAD 请 求 时 ， 只 会 得 到 头 部 。 如 果 你 使 用 HTTP GET 或 者 P05T 命令 ， 就 会 收 到 
头 部 和 首页 的 数据 (混合 了 HTML、CSS、JavaScript 以 及 其 他 Google 放 在 首页 的 东西 )。 


我 不 会 把 你 扔 在 tetnet 里 不 管 ， 输 入 下 面 的 命令 来 关闭 tetnet: 


q 


9.1.2 Python 的 标准 Web 库 


在 Python 2 中 ，Web 客户 端 和 服务 器 模块 结构 都 比较 散乱 。Python 3 的 目标 之 一 就 是 把 这 
些 模块 打包 成 两 个 包 〈 第 5 章 提 到 过 ， 包 就 是 一 个 包含 模块 文件 的 目录 )。 


。 http 会 处 理 所 有 客户 端 - 服务 器 HTTP 请 求 的 具体 细节 : 
4 client 会 处 理 客户 端的 部 分 
4 server 会 协助 你 编写 Python Web 服务 器 程序 
4 cookies 和 cookiejar 会 处 理 cookie，cookie 可 以 在 请 求 中 存储 数据 


。 urllib 是 基于 http 的 高 层 库 : 
4 request 处 理 客户 端 请 求 
4 response 处 理 服务 端的 响应 
4 parse 会 解析 URL 


下 面 ， 我 们 使 用 标准 库 来 获取 网 站 的 内 容 。 例 子 中 的 URL 会 返回 一 段 随机 文本 ， 有 点 像 
幸运 饼干 ”: 

>>> import urllib.request as ur 

>>> url = 'http://www.iheartquotes.com/api/v1i/random' 

>>> Conn = ur.urlopen(url) 


>>> print(conn) 
<http.client.HTTPResponse object at 0x1006fad50> 






















































































在 官方 文档 (https://docs.python.org/3/library/http.client.html) 中 ， 我 们 可 以 看 到 conn 是 一 
个 包含 许多 方法 的 HTTPResponse 对 象 ， 其 中 的 read( ) 方法 会 获取 网 页 的 数据 : 

>>> data = conn.read() 

>>> print(data) 


b'You will be surprised by a loud noise.\r\n\n[codehappy] 
http://iheartquotes.com/fortune/show/20447\n' 


这 段 Python 代码 会 创建 一 个 TCP/IP 连接 并 连接 到 远程 服务 器 ， 发 起 一 个 HTTP 请 求 并 接 
收 HTTP 响应 。 响 应 中 除了 网 页 的 数据 ( 那 段 随机 文本 ) 还 包含 很 多 其 他 信息 ， 其 中 最 重 
要 的 一 条 就 是 HTTP 状态 码 : 


>>> print(conn.status) 
200 


200 意味 着 一 切 正常 。HTTP 状态 码 有 许多 种 ， 可 以 根据 第 一 个 〈 百 位 ) 数字 来 分 成 五 类 。 





























注 2: 幸运 人 饼干， 又 称 签 语 人 饼 、 幸 运 签 语 饼 、 幸 福 人 饼干 、 占 下 饼 等 ， 是 一 种 美式 亚洲 风味 脆 饼 ， 通 常 由 面粉 、 
糖 、 香 草 及 奶油 做 成 ,并 且 里 面包 有 类 似 艇 言 或 者 模 楼 两 可 预言 的 字条 。 一 一 译 者 注 
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。 1xx (信息 ) 
服务 器 收 到 了 请 求 ， 但 是 需要 客户 端 发 送 一 些 额外 的 信息 。 
。 2xx (成 功 ) 
请 求 成 功 。 除 了 200 以 外 ， 其 他 的 状态 码 还 会 包含 一 些 特殊 含义 。 
。 3xx ( 重 定向 ) 
资源 位 置 发 生 改 变 ， 所 以 响应 会 返回 一 个 新 的 URL 给 客户 端 
。 4xx (客户 端 错误 ) 
客户 端 发 生 错误 ， 比 如 最 出 名 的 404 (页 面 不 存在 )。418 (我 是 一 个 茶 5 
节 笑 话 。 
。 5Sxx (服务 端 错误 ) 
500 是 最 常见 的 错误 。 你 可 能 也 见 到 过 502 (网 关 错 误 )， 这 表示 Web 服务 器 程序 和 后 
端的 应 用 服务 器 之 间 无 法 i 连接 ， 


Web 服务 器 程序 可 以 返回 各 种 格式 的 数据 。 通 常 是 HTML (以 及 一 些 CSS 和 JavaScript)， 
但 是 在 幸运 饼干 例子 中 返回 的 是 纯 文本 。 数 据 格式 由 HITP 响应 头 部 中 的 Content-Type 指 
定 ， 它 也 出 现在 了 google.com 例子 中 : 


>>> print(conn.getheader('Content-Type')) 
text/plain 








好 
on 
| 
二 
哄 
> 
































text/plain 字符 串 表示 的 是 一 个 MIME 类 型 ， 它 的 意思 是 纯 文本 。google.com 例子 中 返 
的 MIME 类 型 是 text/htmL。 稍 后 你 还 会 看 到 更 多 MIME 类 型 。 


出 于 好 奇 ， 我 们 来 看 看 响应 中 还 有 什么 HITP 头 ? 


>>> for key, value in conn.getheaders() : 
print(key, value) 





Server nginx 

Date Sat, 24 Aug 2013 22:48:39 GMT 

Content-Type text/plain 

Transfer-Encoding chunked 

Connection close 

Etag "8477e32e6d053fcfdd6750fQc9c306d6" 
X-Ua-Compatible IE=Edge,chrome=1 

X-Runtime 0.076496 

Cache-Control max-age=0, private, must-revalidate 





还 记得 前 Ut telnet 例子 吗 ? 现在 ，Python 标准 库 解析 了 HTTP 响应 的 整个 头 部 并 
存储 成 一 个 字典 。Date 和 Server 一 有 眼 就 能 看 懂 ， 其 他 的 会 难 懂 一 些 。HTTP 有 许多 类 似 
Content-Type 的 标准 头 部 ， 也 有 许多 可 选 头 部 。 


9.1.3 抛 开标 准 库 : requests 


第 1 章 最 开始 ， 我 们 使 用 标准 库 urtLib.request 和 json 来 访问 YouTube 的 API。 接 着 使 
用 第 三 方 模块 requests 重 写 了 一 个 新 版 本 。requests 的 版 本 更 短 并 且 更 易 读 。 
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在 大 多 数 情况 下 ， 使 用 requests 可 以 让 Web 客户 端 开发 变 得 更 加 简单 。 你 可 以 阅读 文档 
(http://docs.python-requests.org/) 来 获取 更 多 信息 。 本 节 会 介绍 requests 的 基本 用 法 。 本 
书 之 后 的 内 容 将 用 它 来 实现 Web 客户 端 。 
首先 需要 把 requests 库 安装 到 你 的 Python 环境 中 。 打 开 一 个 终端 窗口 (Windows 用 户 可 
以 输入 cmd 来 打开 )， 输 入 下 面 的 命令 让 Python 的 包 管 理 器 pip 下 载 最 新 版 的 requests 包 
并 安装 : 

$ pip install requests 
如 果 遇 到 问题 ， 请 阅读 附录 D 来 学 习 如 何 安装 和 使 用 pip。 
用 requests 来 重 写 一 遍 上 面 的 例子 : 


>>> import requests 









































>>> url = 'http://www.iheartquotes.com/api/v1i/random' 
>>> resp = requests.get(url) 
>>> resp 


<Response [200]> 

>>> print(resp.text) 

I know that there are people who do not love their fellow man, and I hate 
people like that! 


- Tom Lehrer, Satirist and Professor 
[codehappy] http://iheartquotes.com/fortune/show/21465 


看 起 来 和 urllib.request.urlopen 差不多 ， 不 过 我 觉得 看 起 来 更 简洁 一 些 。 


9.2 Web 服务 端 


Web 开发 者 已 经 认识 到 ， 在 编写 Web 服务 器 和 服务 端 程序 方面 Python 是 一 门 非 常 优秀 的 
语言 。 因 此 ， 出 现 了 一 系列 基于 Python 的 Web 框架 ， 这 导致 开发 者 很 难 作出 选择 一 一 对 
Python 教程 的 作者 来 说 更 是 如 此 。 


Web 框架 提供 了 一 系列 用 户 搭建 网 站 的 特性 ， 已 经 不 再 是 一 个 简单 的 web (HTTP) 服务 
器 了 。 你 会 看 到 许多 特性 : 路 由 (URL 映射 到 服务 端 函 数 )、 模 板 (HTM 加 上 动态 内 容 )、 
调试 等 。 

我 不 会 介绍 所 有 的 框架 ， 只 会 介绍 那些 相对 比较 简单 易 用 并 且 适 合 开发 产品 级 网 站 的 
框架 ， 也 会 介绍 如 何 用 Python 来 处 理 网 站 的 动态 部 分 并 用 传统 的 Web 服务 器 来 处 理 静 
























































9.2.1 最 简单 的 Python Web 服 务 器 
可 以 用 一 行 Python 代码 启动 一 个 简单 的 Web 服务 器 : 
$ python -m http.server 


这 是 一 个 非常 简单 的 Python HTTP 服务 器 。 如 果 成 功 启 动 ， 会 打印 出 下 面 的 初始 化 状态 信息 : 
































Serving HTTP on 0.0.0.0 port 8000 ... 


0.0.0.0 表示 任意 TCP 地 址 。 这 样 无 论 服务 器 的 地 址 是 什么 ，Web 客户 端 都 可 以 访问 。 第 
11 章 会 有 更 多 TCP 的 底层 细节 和 其 他 的 网 络 协议 。 

现在 你 可 以 通过 相对 路 径 来 请 求 文件 ， 它 们 会 被 Web 服务 器 返回 。 如 果 你 在 Web 浏览 器 
中 输入 http:Wlocalhost:8000， 会 看 到 一 个 目录 列表 ，Web 服务 器 会 打印 出 下 面 这 样 的 访问 
日 志 : 


127.0.0.1 - - [20/Feb/2013 22:02:37] "GET / HTTP/1.1" 200 - 


localhost 和 127.0.0.1 在 TCP 中 是 同义词 ， 都 表示 你 的 本 地 计算 机 ， 因 此 即使 你 的 计算 
机 没有 连 网 ， 也 可 以 执行 这 个 例子 。 这 行 输 出 的 具体 解释 如 下 所 示 。 
。 127.0.0.1 是 客户 端的 IP 地 址 
。 第 一 个 "-" 是 远程 用 户 名 ， 本 例 中 为 空 
。 第 二 个 "-" 是 登录 用 户 名 ， 本 例 中 是 可 选 的 ， 为 空 
。 [20/Feb/2013 22:02:37] 是 访问 日 期 和 时 间 
。 “GET / HTTP/1.1” 是 发 送 给 Web 服务 器 的 命令 : 
4 HTTP 方法 (GET) 
4 请 求 的 资源 〈/， 最 上 层 目录 ) 
4 HITP 版 本 (HTTP/1.1) 
。 最 后 的 208 表示 Web 服务 器 返回 的 HTTP 状态 码 


随便 点 击 一 个 文件 。 如 果 你 的 浏览 器 可 以 识别 它 的 格式 (HTML、PNG、GIF、JPEG 等 )， 
就 会 显示 出 这 个 文件 ，Web 服务 器 也 会 记录 这 次 请 求 。 举 例 来 说 ， 如 果 当 前 目录 下 有 
oreilly.png 文件 ， 请 求 http://localhost:8000/oreilly.png 会 返回 图 7-1 中 这 个 令 人 不 安 的 家 伙 ， 
Web 服务 器 中 会 显示 类 似 下 面 这 样 的 日 志 : 

127.0.0.1 - - [20/Feb/2013 22:03:48] "GET /oreilly.png HTTP/1.1" 200 - 
如 果 同 一 个 目录 下 还 有 其 他 文件 ， 它 们 也 会 出 现在 列表 中 ， 你 可 以 点 击 它们 来 下 载 。 如 果 
你 的 浏览 器 可 以 显示 点 击 文件 的 格式 ， 那 你 会 直接 在 屏幕 上 看 到 文件 内 容 ， 否 则 你 的 浏览 
器 会 询问 你 是 否 要 下 载 并 保存 文件 。 
默认 的 端口 数 是 8000， 你 也 可 以 指定 其 他 的 数字 : 


$ python -m http.server 9999 


输出 如 下 所 示 : 

Serving HTTP on 0.0.0.0 port 9999 ... 
这 个 Python 特有 的 Web 服务 器 很 适合 用 作 快 速 测 试 。 在 大 多 数 终端 中 ， 你 可 以 按 下 
Ctrl+C 来 结束 这 个 进程 。 
一 定 不 要 把 这 个 简单 的 Web 服务 器 用 在 真正 的 产品 级 网 站 中 。Nginx 和 Apache 等 传统 
Web 服务 器 可 以 更 快 地 处 理 静 态 文 件 。 此 外 ， 这 个 简单 的 Web 服务 器 不 能 处 理 动 态 内 容 ， 
其 他 更 高 端的 Web 服务 器 可 以 接收 参数 并 返回 动态 内 容 。 
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9.2.2 ”Web 服务 器 网 天 接口 

人 总 是 会 变 的 ， 现 在 只 提供 简单 的 文件 服务 已 经 不 能 满足 我 们 了 ， 我 们 想 要 能 够 动态 运行 
程序 的 Web 服务 器 。 在 Web 发 展 的 早期 出现 了 通用 网 关 接 口 (CGI)， 客 户 端 可 以 通过 
它 来 让 Web 服务 器 运行 外 部 程序 并 返回 结果 。CGI 也 会 从 Web 服务 器 获取 用 户 输 入 的 参 
数 并 传 给 外 部 程序 。 然 而 ， 对 于 每 个 用 户 请 求 都 需要 运行 一 次 程序 ， 这 样 很 难 扩大 用 户 规 
模 ， 因 为 即使 程序 很 小 ， 启 动 时 还 是 会 有 明显 的 等 待 时 间 。 

为 了 避免 启动 延迟 ， 人 们 开始 把 语言 解释 器 合并 到 Web 服务 器 中 。Apache 可 以 通过 mod_ 
php 模块 来 运行 PHP， 通 过 mod_perl 模块 来 运行 Perl ， 通 过 mod_python 来 运行 Python。 这 
样 ， 动 态 语 言 的 代码 就 可 以 直接 在 持续 运行 的 Apache 进程 中 执行 ， 不 用 再 调用 外 部 程序 。 
另 一 种 方式 是 在 一 个 独立 的 持续 运行 的 程序 中 运行 动态 语言 ， 并 让 它 和 Web 服务 器 进行 通 
信 ， 例 如 FastCGI 和 SCGI。 

Web 服务 器 网 关 接 口 (WSGI) 的 定义 极 大 地 促进 了 Python 在 Web 方面 的 发 展 。WSGI 
是 一 个 通用 的 API， 连 接 Python Web 应 用 和 Web 服务 器 。 本 章 接 下 来 介绍 的 所 有 Python 
Web 框架 和 Web 服务 器 都 使 用 了 WSGI。 你 并 不 需要 知道 WSGI 的 原理 (其 实 也 设 有 多 少 
内 容 ) ， 但 是 理解 其 中 一 些 概念 是 非常 有 帮助 的 。 


9.2.3 
Web 服务 器 会 处 理 HTTP 和 WSGI 的 具体 细节 ， 但 是 真正 的 网 站 是 你 使 用 框架 写 出 的 Python 


代码 。 



















































































框架 
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此 ， 接 下 来 会 介绍 一 下 什么 是 框架 ， 然 后 再 来 讲解 如 何 使 用 它们 来 创建 网 站 。 























如 果 你 想 用 Python 编写 网 站 ， 有 许多 Python Web 框架 供 你 选择 (或 许 有 些 过 多 了 )。 对 于 
一 个 Web 框架 来 说 ， 至 少 要 具备 处 理 客 户 端 请 求 和 服务 端 响 应 的 能 力 。 框 架 可 能 会 具备 下 























下 这 些 特 性 中 的 一 种 或 多 种 。 





。 路 由 
解析 URL 并 找到 对 应 的 服务 端 文件 或 者 Python 服务 器 代码 。 
。 模板 


把 服务 端 数 据 合 并 成 HTML 页 














加 
o 





。 认证 和 授权 
处 理 用 户 名 、 密 码 和 权限 。 
。 Session 
处 理 用 户 在 多 次 请 求 之 间 需 要 存储 的 数据 。 
接 下 来 会 用 两 个 框架 (bottle 和 flask) 来 编写 一 些 示 例 代 码 。 之 后 会 介绍 其 他 框架 ， 用 





它们 编 




















写 带 数据 库 的 网 站 非常 方便 。 无 论 你 想 编 写 什么 网 站 ， 都 能 找到 合适 的 框架 。 








9.2.4 Bottle 
Bottle (瓶子 ) 只 包含 一 个 简单 的 Python 文件 ， 所 以 非常 易于 使 用 并 且 易 于 部 署 。Bottle 
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并 不 是 Python 标准 库 的 一 部 分 ， 所 以 需要 使 用 下 面 的 命令 来 安装 它 : 
$ pip install bottle 


下 面 的 代码 会 运行 一 个 测试 用 于 Web 服务 器 ， 如 果 你 在 浏览 器 中 访问 http://localhost : 
9999/， 这 个 服务 器 会 返回 一 行文 本 。 把 下 面 的 代码 保存 为 bottlel.py: 


from bottle import route, run 






































@route('/') 
def home(): 
return "It isn't fancy, but ;it's my home page" 


run(host="' localhost', port=9999) 
Bottle 使 用 route 装饰 器 来 关联 URL 和 函数 。 在 本 例 中 ，/ (首页 ) 会 被 home() 函数 处 理 。 
输入 下 面 的 命令 来 用 Python 运行 这 个 服务 器 脚本 : 
$ python bottLe1.py 
如 果 你 在 浏览 器 中 访问 http:Wlcoalhost:9999， 会 看 到 下 面 的 内 容 : 
It isn't fancy，but it's my home page 
run() 函数 会 执行 bottle 内 置 的 Python 测试 用 Web 服务 器 。 你 也 可 以 使 用 其 他 Web 服务 
器 ， 但 是 在 开发 和 测试 时 它 非常 有 用 。 
把 HTML 硬 编码 到 代码 中 是 很 不 合适 的 ， 我 们 创建 一 个 单独 的 HTML 文件 index.html 并 
My <b>new</b> and <i>improved</i> home page!!! 


接着 让 bottle 在 首页 被 请 求 时 返回 这 个 HTML 文件 的 内 容 。 把 下 面 的 代码 保存 为 
bottle2.py : 




































































from bottle import route, run, static file 


@route('/') 
def main(): 
return static file('index.html', root='.') 


run(host="' localhost', port=9999) 


调用 static_file() 时 ， 我 们 指定 的 是 root 目录 (在 本 例 中 是 '.'， 也 就 是 当前 目录 ) 下 
的 index.html 文件 。 如 果 上 一 个 例子 的 脚本 还 在 执行 ， 请 终止 它 并 运行 这 个 新 服务 器 : 


$ python bottLe2.py 


在 浏览 器 中 访问 http://localhost:9999 时 ,会 看 到 : 


























My new and improved home page!!! 


再 来 看 最 后 一 个 例子 。 它 展示 了 如 何 指定 URL 中 的 参数 并 使 用 它们 。 按 照 惯 例 ， 这 次 的 
文件 名 是 bottle3.py: 
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from bottle import route, run, static file 


@route('/') 
def home(): 
return static file('index.html', root='.') 


@route('/echo/<thing>') 
def echo(thing): 


return "Say hello to my little friend: %s!" % thing 


run(host="'localhost', port=9999) 


我 们 定义 了 一 个 新 函数 echo()， 并 且 在 URL 中 指定 了 





一 个 字符 串 参数 。 这 就 是 例子 中 


@route('/echo/<thing>') 做 的 事情 。 路 由 中 的 <thing> 表示 URL 中 /echo/ 之 后 的 内 容 都 


会 被 赋值 给 字符 串 参 数 thing， 然 后 被 传人 echo 函数 。 下 
在 运行 就 终止 它 ， 然后 启动 新 服务 器 


$ python bottle3.py 























面 来 看 看 效果 ， 如 有 果 旧 服务 器 还 











接着 在 浏览 器 中 访问 http://localhost:9999/echo/Mothra， 会 看 到 : 





Say hello to my little friend: Mothral 


好 的 ， 现 在 请 继续 让 bottle3.py 运行 ， 我 们 来 做 一 个 实验 。 刚 才 你 在 浏览 器 中 验证 了 这 
个 例子 确实 能 够 正常 工作 ， 并 且 看 到 了 展示 出 来 的 页 面 。 甚 实 还 可 以 让 客户 端 库 (比如 
requests) 来 做 同样 的 事 。 把 下 面 的 代码 保存 为 bottle_test.py: 























import requests 














resp = requests.get('http://\localhost:9999/echo/Mothra') 


if resp.status_code == 200 and \ 


resp.text == 'Say hello to my little friend: Mothra!': 


print('It worked! That almost never happens!') 
else: 
print('Argh, got this:', resp.text) 


然后 运行 : 
$ python bottLe_test.py 


你 会 在 终端 中 看 到 : 


It worked! That almost never happens! 





这 是 一 个 简单 的 单元 测试 。 第 8 章 中 详细 介绍 了 为 什么 要 测试 以 及 如 何 用 Python 编写 


测试 。 








bottle 还 有 许多 其 他 的 特性 ， 例 如 你 可 以 试 着 在 调用 run() 时 加 上 这 些 参数 : 





。 debug=True， 如 果 出 现 HTTP 错误 ， 会 创建 一 个 调试 页 面 ， 














。 reloader=True， 如 果 你 修改 了 任何 Python 代码 ， 浏 览 器 中 的 页 面 会 重新 载 人 。 
详细 的 文档 可 以 在 开发 者 网 站 (http://bottlepy.org/docs/dev/) 上 找到 。 








9.2.5 Flask 


Bottle 是 一 个 非常 优秀 的 入 门框 架 。 但 如 果 你 需要 更 多 的 功能 ， 那 就 试 试 Flask 吧 。Flask 
最 初 只 是 2010 年 的 一 个 恩人 节 玩 笑 ， 但 是 由 于 大 家 的 反响 非常 热烈 ， 作 者 Armin Ronacher 
把 它 变 成 了 一 个 真正 的 框架 。 有 趣 的 是 ，Flask 这 个 名 字 也 是 一 个 文字 游戏 ”。 


Flask 和 Bottle 一 样 易 用 ， 同 时 还 支持 很 多 专业 Web 开发 需要 的 扩展 功能 ， 比 如 Facebook 
认证 和 数据 库 集 成 。Flask 是 我 最 喜欢 的 Python Web 框架 ， 因 为 它 成 功 地 做 到 了 既 好 用 又 
强大 。 
Flask 包 中 自 带 了 werkzeug WSGI 库 和 jinja2 模板 库 。 你 可 以 从 终端 中 安装 : 

$ pip install flask 
我 们 用 flask 来 重 写 一 下 最 后 那个 bottle 例子 。 首 先 需 要 进行 一 些 修改 。 


。 Flask 默认 的 静态 文件 目录 是 static， 上 默认 的 静态 文件 URL 由 /static 开始 。 我 们 把 文 
件 夹 改 成 '.' (当前 目录 )， 把 URL 前缀 改 成 ''( 空 )， 这 样 URL/ 可 以 被 映射 到 文件 
index.html。 

。 在 run() 函数 中 ,设置 debug=True 可 以 启用 代码 自动 重 载 ，bottle 把 这 个 参数 拆 成 了 
两 个 ，debug 和 reload。 


把 下 面 的 代码 保存 为 faskl.py: 


from fLask import FLask 























app = Flask(__name _, static folder='.', static url_path='') 


@app.route('/') 
def home(): 
return app.send_static file('index.html') 


@app.route('/echo/<thing>') 
def echo(thing): 
return "Say hello to my little friend: %s" % thing 

app.run(port=9999, debug=True) 
然后 在 终端 或 者 命令 行 中 运行 Web 服务 器 : 

$ python flaski.py 
在 浏览 器 中 输入 下 面 的 URL 来 测试 首页 是 否 可 以 正常 访问 : 
http://localhost:9999/ 
你 能 看 到 下 面 的 内 容 (和 bottle 例子 一 样 ) : 
My new and improved home pagel!!! 


试 试 /echo 功能 : 

















— 








注 3; Flask 和 bottle 都 有 瓶子 的 意思 。 一 一 译 者 注 
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http://LocaLhost:9999/echo/aodziLLa 


会 看 到 ; 
Say hello to my little friend: Godzilla 
把 debug 设置 为 True 还 有 一 个 好 处 。 在 调用 run 时 ， 如 果 代 码 中 出 现 异常 ，Flask 会 返回 


一 个 特殊 的 网 页 ， 甚 中 会 包含 一 些 有 用 的 信息 ， 比 如 错误 类 型 和 错误 位 置 。 此 外 ， 你 还 可 
以 使 用 一 些 命令 来 查看 服务 器 程序 中 变量 的 值 。 

















在 生产 环境 中 不 要 把 debug 设置 为 True， 否 则 可 能 会 暴露 出 太 多 信息 ， 有 安 
全 隐患 。 








到 目前 为 止 ，Flask 的 例子 只 是 重复 了 我 们 之 前 用 bottle 做 的 事 。 那 Flask 能 做 什么 
bottle 做 不 了 的 事 呢 ? Flask 内 置 了 jinja2， 一 个 极 具 扩展 性 的 模板 系统 。 下 面 这 个 例子 
展示 了 如 何在 flask 中 使 用 jinja2。 


创建 一 个 名 为 templates 的 目录 ， 把 下 面 的 代码 存 为 flask2.html: 


<html> 

<head> 

<title>Flask2 Example</title> 

</head> 

<body> 

Say hello to my little friend: {{ thing }} 
</body> 

</html> 


接着 在 服务 器 程序 中 获取 这 个 模板 ， 写 入 我 们 传 入 的 值 thing， 然 后 泻 染 成 HTML (为 了 
节约 空间 ， 我 去 掉 了 home() 函数 )。 把 下 面 的 代码 存储 为 和 


from flask import Flask, render_template 

















app = Flask(__name_ ) 
@app.route('/echo/<thing>') 
def echo(thing): 
return render_template('flask2.html', thing=thing) 


app.run(port=9999, debug=True) 


thing = thing 这 个 参数 的 意思 是 把 名 为 thing 的 变量 传人 模板 ， 它 的 值 是 变量 thing 中 的 
字符 串 。 


关闭 faskl.py， 运 行 flask2.py: 





$ python fLask2.py 
现在 输入 URL: 


http://Llocalhost:9999/echo/Gamera 





你 会 看 到 这 些 内 容 : 


Say hello to my little friend: Gamera 


修改 一 下 模板 内 容 并 把 它 存 为 flask3.html， 放 在 templates 目录 下 : 


<html> 

<head> 

<title>Flask3 Example</title> 

</head> 

<body> 

Say hello to my little friend: {{ thing }}. 
Alas, it just destroyed {{ place }}! 


</body> 

</html> 
你 可 以 用 很 多 方法 把 第 二 个 参数 传人 echo 的 URL。 
通过 URL 路 径 传 入 参数 


你 可 以 把 参数 当 作 URL 的 一 部 分 ， 使 用 这 种 方法 可 以 直接 扩展 URL 本 身 (把 下 面 的 代码 
存储 为 fask3a.py) : 


from flask import Flask, render_template 





app = Flask(__name_ ) 
@app.route('/echo/<thing>/<place>') 
def echo(thing, place): 
return render_template('flask3.html', thing=thing, place=place) 
app.run(port=9999, debug=True) 
按照 惯例 ， 停 止 之 前 的 服务 器 脚本 并 运行 这 个 新 脚本 : 
$ python flask3a.py 
URL 看 起 来 是 这 样 : 
http://localhost:9999/echo/Rodan/McKeesport 
你 会 看 到 : 
Say hello to my little friend: Rodan. Alas, it just destroyed McKeesport! 
此 外 ， 还 可 以 用 GET 参数 来 传递 参数 (把 下 面 的 代码 存储 为 flask3b.py) : 


from flask import Flask, render_template, request 
app = Flask(__name_ ) 


@app.route('/echo/') 
def echo(): 
thing = request.args.get('thing') 
place = request.args.get('place') 
return render_template('flask3.html', thing=thing, place=place) 


app.run(port=9999, debug=True) 
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运行 新 的 服务 器 脚本 : 
$ python flask3b.py 
这 次 使 用 这 个 URL: 
http://Llocalhost:9999/echo?thing=Gorgo&place=Wilmerding 
你 会 看 到 : 
Say hello to my little friend: Gorgo. Alas, it just destroyed Wilmerding! 
在 URL 中 使 用 GET 命令 时 ， 传 入 的 参数 形式 为 &key1l=vall&key2=val2&...。 


你 可 以 使 用 字典 的 ** 操作 符 来 向 模板 中 一 次 性 传 入 字典 的 多 个 值 (把 下 面 的 代码 存储 为 
flask3c.py) : 














from flask import Flask, render_template,request 
app = Flask(__name ) 


@app.route('/echo/') 

def echo(): 
kwargs = {} 
kwargs['thing'] = request.args.get('thing') 
kwargs['place'] = request.args.get('place') 
return render_template('flask3.html', **kwargs) 


app.run(port=9999, debug=True) 
**kwargs 的 行为 与 thing=thing 和 place=place 一样 ， 但 是 在 参数 很 多 时 可 以 少 输入 很 多 


jinja2 模板 语言 还 有 很 多 功能 ， 如 果 你 用 过 PHP， 应 该 会 看 到 许多 熟悉 的 东西 。 


9.2.6_ 非 Python 的 Web 服 务 器 

到 目前 为 止 ， 我 们 使 用 的 Web 服务 器 都 很 简单 :不 是 标准 库 的 http.server 就 是 Bottle 和 
Flask 自 带 的 调试 用 服务 器 。 在 生产 环境 中 ， 你 需要 用 更 快 的 Web 服务 器 来 运行 Python。 
下 面 是 常用 的 选择 : 

。 apache 加 上 mod_wsgi 模块 

。 nginx 加 上 uwWsGI 应 用 服务 器 

两 者 都 很 不 错 。apache 可 能 是 最 流行 的 ，nginx 更 稳定 并 且 占 用 内 存 更 少 。 

1. Apache 

Apache (http://httpd.apache.org/) Web 服务 器 中 最 好 用 的 WSGI 模块 是 mod_wsgi (https:// 
code.google.com/p/modwsgi/) 。 这 个 模块 可 以 在 Apache 进程 中 运行 Python 代码 ， 也 可 以 在 
独立 进程 中 运行 Python 代码 并 和 Apache 进行 通信 。 

如 果 你 的 系统 是 Linux 或 者 OS X， 那 你 已 经 有 apache 了 。 如 果 是 Windows， 你 需要 安装 
apache (http://httpd.apache.org/docs/current/platform/windows.htm!l) 。 
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最 后 ， 安 装 好 你 喜欢 的 基于 WSGI 的 Python Web 框架 ， 这 里 我 们 使 用 bottle。 之 后 的 工 
作 基 本 上 都 是 配置 Apache， 这 里 有 很 多 黑 魔 法 。 


把 下 面 的 代码 存储 为 /var/www/test/home.wsgi: 


import bottle 








application = bottle.default_app() 


@bottle.route('/') 
def home(): 
return "apache and wsgi, sitting in a tree" 


这 次 不 要 调用 run()， 因 为 它 会 启动 内 置 的 Python Web 服务 器 。 我 们 需要 给 变量 

application 赋值 ， 因 为 mod_wsgi 会 使 用 这 个 变量 来 结合 Web 服务 器 和 Python 代码 。 

如 果 apache 和 mod_wsgi 模块 工作 正常 ， 只 需要 把 它们 连接 到 Python 脚本 就 行 。 要 做 到 这 

件 事 ， 需 要 向 apache 服务 器 的 默认 网 站 配置 文件 中 加 入 一 行 ， 但 是 找到 那个 文件 并 不 容 

易 。 它 可 能 是 /etc/apache2/httpd.conf， 也 可 能 是 /etc/apache2/sites-available/default， 还 可 能 

是 某 个 人 的 完 物 蝶 晨 的 拉丁 文 名 字 。 

假设 现在 你 能 找到 那个 文件 ， 把 下 面 这 行 加 入 控制 默认 网 站 的 <virtualHost> 中 : 
WSGIScriptAlias / /var/www/test/home.wsgi 

添加 之 后 可 能 是 这 样 的 : 


<VirtualHost *:80> 
DocumentRoot /var/www 






































WSGIScriptAlias / /var/www/test/home.wsgi 


<Directory /var/www/test> 

Order allow,deny 

Allow from all 

</Directory> 
</VirtualHost> 


启动 apache， 如 果 你 已 经 启动 就 重启 ， 这 样 才能 应 用 新 的 配置 文件 。 之 后 ， 如 果 访 问 
http://localhost/， 你 会 看 到 : 








apache and wsgi, sitting in a tree 
这 样 就 在 嵌入 模式 中 运行 了 mod_wsgi， 在 这 个 模式 下 它 是 apache 的 一 部 分 (在 同一 进 
程 内 )。 
也 可 以 用 守护 模式 来 运行 ， 这样 会 产生 一 个 或 多 个 独立 于 apache 的 进程 。 要 使 用 守护 模 
式 ， 可 以 向 apache 配置 文件 中 加 入 两 行内 容 : 


$ WSGIDaemonProcess domain-name User=user-name group=group-name threads=25 
WSGIProcessGrouyup domain-name 


在 上 面 的 代码 中 ，user-nane 和 group-name 是 操作 系统 的 用 户 和 用 户 组 名 称 ，donain-nane 
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是 你 的 互联 网 域名 。 最 简单 的 apache 配置 如 下 所 示 : 


<VirtualHost *:80> 
DocumentRoot /var/www 


WSGIScriptAlias / /var/www/test/home.wsgi 


WSGIDaemonProcess mydomain.com user=myuser group=mygroup threads=25 
WSGIProcessGroup mydomain.com 


<Directory /var/www/test> 

Order allow,deny 

Allow from all 

</Directory> 
</VirtualHost> 


2. Nginx Web 服 务 器 

Nginx (http://nginx.org/) Web 服务 器 没有 内 风 的 Python 模块 。 它 通过 一 个 独立 的 WSGI 
服务 器 (比如 uWSGI) 来 和 Python 程序 通信 。 把 它们 结合 在 一 起 可 以 实现 高 性 能 并 且 可 
配置 的 Python Web 开发 平台 。 

你 可 以 从 官网 (http://wiki.nginx.org/Install) 安装 nginx。 此 外 ， 还 需要 安装 uWSGI (http:/ 
uwsgidocs.readthedocs.org/en/latest/Install.html) 。uWSGI 是 一 个 大 系统 ， 有 许多 需要 调节 的 
内 容 。 可 以 在 http://flask.pocoo.org/docs/0.10/deploying/uwsgi/ 看 到 如 何 结合 Flask、nginx 
和 uWSGI。 


9.2.7 ”其 他 框架 

网 站 和 数据 库 就 像 花 生效 和 果冻 ， 它 们 经 常 一 起 出 现 。 小 型 框架 ， 比 如 bottte 和 flask， 

不 能 直接 支持 数据 库 ， 尽 管 有 一 些 插件 可 以 实现 。 

如 果 你 需要 开发 基于 数据 库 的 网 站 并 且 数 据 库 的 结构 不 会 经 常 变 化 ， 那 最 好 试 试 大 型 的 

Python Web 框架 。 现 在 主流 的 框架 有 以 下 这 些 。 

。 django (https:Wwww.djangoproject.comy) 
是 最 流行 的 ， 尤 其 是 大 型 网 站 很 喜欢 用 它 。 有 很 多 学 习 django 的 理由 ， 其 中 最 重要 的 
就 是 Python 的 招聘 要 求 中 经 常 需要 django 的 开发 经 验 。 它 有 ORM 功能 (8.4.6 节 的 
“对 象 关系 映射 ”部 分 讨论 过 )， 可 以 在 网 页 中 自动 应 用 典型 的 数据 库 CRUD 功能 ( 创 
建 、 替 换 、 更 新 和 删除 ) ， 就 像 之 前 在 8.4.1 节 中 说 的 一 样 。 你 也 可 以 不 用 django 自 带 
的 ORM， 可 以 选择 SQLAlchemy 或 者 直接 使 用 SQL 查询 语句 。 

。 web2py (http://www.web2py.com/) 
和 django 功能 类 似 ， 只 是 风格 不 同 。 

。 pyramid (http://www.pylonsproject.org/) 
诞生 于 最 早 的 pylons 项 目 ， 和 django 很 像 。 

。 turbogears (http://turbogears.org/) 


这 个 框架 支持 ORM、 多 种 数据 库 以 及 多 种 模板 语言 。 
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wheezy .web (http ://pythonhosted.org/ wheezy.web/) 
这 是 一 个 比较 新 的 框架 ， 专 为 性 能 而 生 。 在 最 近 的 测试 中 ， 它 比 其 他 框架 都 快 (http:// 
mindref.blogspot.com/2012/10/python-web-routing-benchmark.html) 。 





你 可 以 使 用 这 个 在 线 表格 (https://wiki.python.org/moin/WebFrameworks) 来 对 比 这 些 框架 。 
如 果 你 的 网 站 使 用 的 是 关系 数据 库 ， 就 可 以 不 使 用 大 型 框架 ， 直 接 用 bottle、flask 这 类 








框架 结合 关系 数据 库 模 块 就 行 。 也 可 以 使 用 SQLAIlchemy 来 屏蔽 数据 库 的 差异 ， 直 接 写 通 








月 


日 SQL 代码 就 行 。 相 比特 定 的 ORM 语法 ， 大 多 数 程序 员 更 熟悉 SQL。 








当然 ， 你 完全 可 以 不 使 用 关系 数据 库 。 如 果 你 的 数据 结构 差异 很 大 一 一 不 同行 的 同一 列 差 
别 很 大 











那 你 或 许 应 该 试 试 无 模式 数据 库 ， 比 如 8.5 节 讨 论 过 的 NoSQL 数据 库 。 我 之 前 








开发 的 一 个 网 站 一 开始 使 用 NoSQL 数据 库 来 存储 数据 ， 后 来 切换 到 一 个 关系 数据 库 ， 然 
后 又 切换 到 另 一 个 关系 数据 库 ， 接 着 又 切换 到 一 个 NoSQL 数据 库 ， 最 后 又 切换 回 了 一 个 


其 他 Python Web 服 务 器 


下 面 是 一 些 类 似 apache 和 ngtinx 的 基于 Python 的 WSGI 服 务 器 ， 使 用 多 进程 和 /或 线程 


( 




















参见 11.1 市) 来 处 理 并 发 请 求 : 
uwsgi (http://projects.unbit.it/uwsgi/) 





cherrypy (http://www.cherrypy.org/) 
pylons (http://www.pylonsproject.org/) 





下 面 是 一 些 基于 事件 的 服务 器 ， 只 使 用 单线 程 但 不 会 阻塞 


第 11 章 关 于 “并 发 ”的 讨论 会 详细 介绍 事件 。 














tornado (http://www.tornadoweb.org) 
gevent (http://gevent.org/) 
gunicorn (http://gunicorn.org/) 








9.3 Web 服务 和 自动 化 


我 们 已 经 看 过 了 传统 的 Web 客户 端 和 服务 器 应 用 ， 它 们 会 生成 并 使 用 HTML 页 面 。 然 而 ， 
Web 逐渐 演变 出 了 许多 非 HTML 的 数据 传输 格式 。 

















9.3.1 webbrowser 模 块 
首先 来 看 点 好 玩 的 。 在 终端 里 启动 Python 会 话 并 输入 下 面 的 代码 : 


>>> import antigravity 


这 会 调用 标准 库 的 webbrowser 模块 并 让 你 的 浏览 器 显示 一 个 Python 入 门 网 页 。 





注 








E 4: 如 果 你 因为 某 些 原因 看 不 到 该 网 页 ， 访问 xkcd (http://xkcd.com/353/)。 
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你 也 可 以 直接 使 用 这 个 模块 。 下 面 的 程序 会 在 浏览 器 中 打开 Python 官网 的 首页 : 


>>> import webbrowser 

>>> url = 'http://www.python.org/' 
>>> webbrowser .open(url) 

True 


在 的 代码 会 在 新 窗口 中 打开 它 : 


>>> Webbrowser .open_new(url) 
True 


如 果 你 的 浏览 器 支持 标签 ， 下 面 的 代码 会 在 新 标签 中 打开 它 : 


>>> webbrowser .open_new_tab('http://www.python.org/') 
True 


webbrowser 可 以 完全 控制 你 的 六 览 器 


9.3.2 ”Web API 和 表述 性 状态 传递 


通常 来 说， 数据 只 存在 于 网 页 内 。 如 果 你 想 获 取 数 据 ， 需 要 在 Web 浏览 器 中 访问 网 页 并 阅 
读数 据 。 如 果 网 站 作者 在 你 最 后 一 次 访问 之 后 做 了 什么 改动 ， 数 据 的 位 置 和 格式 就 可 能 发 
生变 化 。 


除了 发 布 网 页 ， 你 还 可 以 通过 应 用 编程 接口 (API) 来 提供 数据 。 客 户 端 通 过 URL 来 访问 
你 的 服务 并 从 响应 中 获取 状态 和 数据 。 数 据 并 不 是 HTML 网 页 ， 而 是 更 容易 被 程序 处 理 的 
格式 ， 比 如 JSON 和 XML (第 8 章 中 对 这 些 格式 有 详细 的 介绍 )。 


表述 性 状态 传递 (REST) 是 Roy Fielding 在 他 的 博士 论文 中 提出 的 概念 。 许 多 产品 都 宣称 
它们 具备 REST 接口 或 者 是 RESTful 接口 。 在 具体 实现 上 ， 其 实 就 是 一 个 Web 接口 ， 即 定 
义 一 组 可 以 访问 Web 服务 的 URL。 


RESTful 服务 会 用 特定 的 方式 来 使 用 HTTP 动词 ， 如 下 所 示 。 





本 










































































。 HEAD 
获取 资源 的 信息 ， 但 是 不 包括 数据 。 
。 GET 




















顾名思义 ，GET 会 从 服务 器 取 回 资源 的 数据 。 这 是 浏览 器 使 用 的 标准 方法 。 如 有 果 你 在 
URL 中 看 到 一 个 问号 (?) 之 后 跟着 一 堆 参 数 ， 那 就 是 一 个 GET 请 求 。GET 不 应 该 被 用 
来 创建 、 修 改 或 者 删除 数据 。 











。 POST 
这 个 动词 会 更 新 服务 器 上 的 数据 。 通 常 它 会 被 用 在 HTML 的 表单 和 Web API 中 。 
。 PUT 


这 个 动词 会 创建 一 个 新 资源 。 





。 DELETE 
顾名思义 ， 这 个 动词 会 删除 一 些 东 西 ， 就 像 广告 中 的 真 话 一 样 ”! 

RESTful 客户 端 也 可 以 使 用 HTTP 请 求 头 来 请 求 一 种 或 多 种 类 型 的 内 容 ， 例 如 一 个 具备 

REST 接口 的 复杂 服务 可 能 更 希望 输入 和 输出 是 JSON 字符 串 。 





9.3.3 JSON 
第 1 章 展示 的 两 个 Python 例子 获取 了 最 热门 的 YouTube 视频 信息 。 第 8 章 介绍 了 JSON。 
JSON 非常 适合 用 在 Web 客户 端 和 服务 器 的 数据 交换 中 。 它 在 基于 Web 的 API 中 非常 流 
行 ， 比 如 OpenStack。 


9.3.4” 抓 取 数 据 
有 了 时候 你 可 能 想 要 更 多 信息 一 一 电影 排名 、 股 票 价格 或 者 商品 供应 信息 一 一 但 是 这 些 信息 
只 存在 于 HTML 页 面 中 ， 包 于 在 广告 和 其 他 无 关 的 信息 中 。 
你 可 以 使 用 下 面 的 方法 来 手动 提取 信息 : 
(1) 在 浏览 器 中 输入 URL; 
(2) 等 待 页 面 加 载 ， 
(3) 浏览 页 面 并 找到 你 想 要 的 信息 ， 
(4) 把 信息 记录 下 来 ; 
(5) 可 能 要 把 这 个 过 程 重复 应 用 在 所 有 相关 URL 上 。 
然而 ， 我 们 更 希望 能 自动 执行 其 中 的 一 步 或 者 多 步 。 自 动 抓 取 Web 信息 的 程序 叫 作 农行 者 
或 者 爬虫 (对 于 蜂 蛛 丽 惧 者 来 说 毫 无 吸引 力 ) 。 从 远 端 服务 器 获取 到 信息 之 后 让 虫 会 进行 
解析 并 寻找 有 用 的 信息 。 
如 果 你 需要 一 个 企业 级 的 爬虫 ， 那 强烈 推荐 Scrapy (http://scrapy.org/) : 
$ pip install scrapy 
Scrapy 是 一 个 框架 ， 并 不 是 类 似 Beautifulsoup 的 模块 。 它 会 做 更 多 事 ， 不 过 也 更 难 设置 。 


更 多 关于 Scrapy 的 信息 请 阅读 文档 (http://scrapy.org) 或 者 在 线 教程 (http://amaral-lab.org/ 
blog/quick-introduction-web-crawling-using-scrapy-part- ) 。 















































9.3.5 “用 BeautifuLsoup 来 抓 取 HTML 

如 果 你 已 经 拿 到 了 一 个 网 站 的 HTML 数据 并 且 想 从 中 提取 数据 ，BeautifuLSoup 是 一 个 不 
错 的 选择 。 解 析 HTML 比 想象 中 要 难得 多 ， 因 为 互联 网 上 的 HTML 在 技术 角度 通常 是 不 
合法 的 : 没有 闭合 的 标签 、 不 正确 的 租 套 以 及 其 他 复 灯 的 东西 。 如 果 你 自己 尝试 过 用 正则 
表达 式 (第 7 章 介绍 过 ) 来 解析 HIML， 你 一 定 遇 到 过 这 些 麻 烦 事 。 

输入 下 面 的 命令 来 安装 Beautifulsoup ( 千 万 别 忘 了 结尾 的 4， 否则 pip 会 试 着 安装 旧版 并 



































注 5: 意思 是 非常 少见 。 一 一 译 者 注 
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且 可 能 会 安装 失败 ) : 
$ pip install beautifulsoup4 


现在 可 以 用 它 来 尝试 一 下 获取 一 个 网 页 上 的 所 有 链接 。HTML 的 a 元素 表 示 一 个 链接 ， 它 
的 href 属性 表示 链接 的 目标 地 址 。 下 面 的 例子 会 定义 函数 get_Links() 并 用 它 来 完成 任 
务 。 程 序 可 以 从 命令 行 参数 接收 一 个 或 多 个 URL: 


def get_links(url): 
import requests 
from bs4 import BeautifulSoup as soup 
result = requests.get(urL) 
page = result. text 
doc = soup(page) 
Links = [element.get('href') for element in doc.find all('a')] 
return links 














if _ name _ == '_ main _': 
import sys 
for url in sys.argv[1:]: 
print('Links in', url) 
for num, link in enumerate(get links(uyrl), start=1): 
print(num, link) 
print() 


我 把 这 个 程序 存储 为 links.py 并 运行 下 面 的 命令 : 
$ python Links.py http://boingboing.net 
下 面 是 一 部 分 输出 ; 


Links in http://boingboing.net/ 

1 http://boingboing.net/suggest.html 

2 http://boingboing.net/category/feature/ 
3 http://boingboing.net/category/review/ 
4 http://boingboing.net/category/podcasts 
5 http://boingboing.net/category/video/ 

6 http://bbs.boingboing.net/ 
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9.4 练习 


(1) 如 果 你 还 没有 安装 flask， 现 在 安装 它 。 这 样 会 自动 安装 werkzeug、jinja2 和 其 他 包 。 

(2) 搭 建 一 个 网 站 框架 ， 使 用 Flask 的 调试 /代码 重 载 来 开发 Web 服务 器 。 使 用 主机 名 
Localhost 和 默认 端口 5099 来 启动 服务 器 。 如 果 你 电脑 的 5099 端口 已 经 被 占用 ， 使 用 
其 他 端口 。 

(3) 添 加 一 个 home() 函数 来 处 理 对 于 主页 的 请 求 ， 让 它 返回 字符 串 It's alive!。 

(4) 创建 一 个 名 为 home.html 的 Jinja2 模板 文件 ， 内 容 如 下 所 示 : 












































大 
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<htmL> 

<head> 

<title>It's alive!</title> 

<body> 

I'm of course referring to {{thing}}, which is {{height}} feet tall and {{color}}. 
</body> 

</html> 


(5) 修改 home() 函数 ， 让 它 使 用 home.html 模板 。 给 模板 传 入 三 个 GET 参数 : thing、height 
和 color。 
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“被 密封 在 一 个 仓库 的 纸箱 中 是 一 件 计 算 机 能 做 但 是 大 多 数 人 无 法 做 到 的 事 。” 

Jack Handey 

在 你 日 常 使 用 计算 机 时 ， 经 常 需要 列 出 一 个 文件 夹 或 者 目录 的 内 容 ， 创 建 和 删除 文件 ， 以 
及 做 其 他 一 些 比较 无 聊 但 是 不 得 不 做 的 “家 务 活 ”"。 在 Python 程序 中 可 以 做 到 同样 的 事 
甚至 能 做 更 多 的 事 。 这 些 功 能 是 否 能 减少 你 的 工作 量 呢 ? 我 们 拭目以待 。 


Python 在 模块 os 〈 操 作 系 统 ，operating system) 中 提供 了 许多 系统 函数 ， 本 章 的 所 有 程序 
都 需要 导入 这 个 模块 。 


10.1 文件 


和 其 他 语言 一 样 ，Python 的 文件 操作 很 像 Unix。 有 些 函 数 的 名 字 相 同 ， 比 如 chown() 和 
chmod()， 不 过 也 有 很 多 新 函数 。 


10.1.1 用 open() 创 建文 件 
8.1 节 介 绍 了 如 何 使 用 open() 函数 来 打开 文件 或 者 创建 文件 。 下 面 来 创建 一 个 名 为 oops.txt 
的 文本 文件 : 


>>> fout = open('oops.txt', 'wt') 
>>> print('Oops, I created a file.', file=fout) 
>>> fout.close() 


我 们 用 这 个 文件 来 进行 一 些 济 试 。 
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10.1.2 ”用 exists() 检 查 文件 是 否 存在 
要 判断 文件 或 者 目录 是 否 存在 ， 可 以 使 用 exists()， 传 和 相对 或 者 绝对 路 径 名 ， 如 下 所 示 : 


>>> import os 

>>> os.path.exists('oops.txt') 
True 

>>> os.path.exists('./oops.txt') 
True 

>>> os.path.exists('waffles') 
False 

>>> os.path.exists('.') 

True 

>>> os.path.exists('..') 

True 


10.1.3 用 isfile() 检 查 是 否 为 文件 
本 节 中 的 函数 可 以 检查 一 个 名 称 是 文件 、 目 录 还 是 符号 链接 (详情 见 下 方 的 例子 )。 
我 们 要 学 习 的 第 一 个 函数 是 isfite， 它 只 回答 一 个 问题 ， 这 个 是 不 是 文件 ? 


>>> name = 'oops.txt' 
>>> os.path.isfile(name) 
True 


下 面 是 判断 目录 的 方法 : 

>>> os.path.isdir(name) 

False 
一 个 点 号 (.) 表示 当前 目录 ， 两 个 点 号 (..) 表示 上 层 目录 。 它 们 一 直 存 在 ， 所 以 下 面 
的 语句 总 会 返回 True: 

>>> os.path.isdir('.') 

True 
os 模块 中 有 许多 处 理 路 径 名 (完整 的 文件 名 ， 由 / 开始 并 包含 所 有 上 级 目录 ) 的 函数 。 其 
中 之 一 是 isabs()， 可 以 判断 参数 是 否 是 一 个 绝对 路 径 名 。 参 数 不 需 要 是 一 个 真正 的 文件 : 


>>> os.path.isabs(name) 

False 

>>> os.path.isabs('/big/fake/name') 

True 

>>> os.path.isabs('big/fake/name/without/a/leading/slash') 
False 


10.1.4 用 copy() 复 制 文件 
copy() 函数 来 自 于 另 一 个 模块 shutil。 下 面 的 例子 会 把 文件 oops.txt 复制 到 文件 ohno.txt: 


>>> import shutil 
>>> shutil.copy('oops.txt', 'ohno.txt') 





























shutil.move() 函数 会 复制 一 个 文件 并 删除 原始 文件 。 


10.1.5 用 rename() 重 命名 文件 
这 个 函数 的 作用 看 名 字 就 知道 了 。 下 面 的 例子 会 把 ohno.txt 文件 重 命名 为 ohwell.txt 文件 


>>> import os 
>>> os.rename('ohno.txt', 'ohwell.txt') 


10.1.6 ”用 Link() 或 者 symLink() 创 建 链接 


在 Unix 中 ， 文 件 只 存在 于 一 个 位 置 ， 但 是 可 以 有 多 个 名 称 ， 这 种 机 制 叫 作 链接 。 在 更 底 
层 的 硬 链接 中 ， 找 到 一 个 文件 的 所 有 名 称 并 不 容易 。 可 以 考虑 使 用 符号 链接 ， 它 会 把 新 名 
称 当 作文 件 存储 ， 这 样 一 次 就 可 以 获取 到 原始 名 称 和 新 名 称 。Link() 会 创建 一 个 硬 链接 。 
symLink() 会 创建 一 个 符号 链接 。istlink() 函数 会 检查 参数 是 文件 还 是 符号 链接 。 

下 面 这 个 例子 展示 了 如 何 把 已 有 文件 oops.txt 硬 链 接 到 一 个 新 文件 yikes.txt: 


>>> os.link('oops.txt', 'yikes.txt') 
>>> os.path.isfile('yikes.txt') 
True 


看 的 例子 展示 了 如 何 把 已 有 文件 oops.txt 符号 链接 到 一 个 新 文件 jeepers.txt: 


>>> os.path.islink('yikes.txt') 

False 

>>> os.symlink('oops.txt', 'jeepers.txt') 
>>> os.path.islink('jeepers.txt') 

True 


10.1.7 用 chmod() 修 改 权 限 

在 Unix 系统 中 ，chmod() 可 以 修改 文件 权限 。 可 以 设置 用 户 (如 果 是 你 创建 了 文件 ， 那 用 
户 通常 就 是 你 )、 当 前 用 户 所 在 用 户 组 以 及 其 他 所 有 用 户 组 的 读 、 写 和 执行 权限 。 这 个 命 
令 接收 一 个 压缩 过 的 八进制 (基数 为 8) 值 ， 这 个 值 包 仿 用户、 用 户 组 和 权限 。 举 例 来 说 ， 
下 面 的 命令 可 以 让 oops.txt 只 能 被 拥有 者 读 : 

>>> os.chmod('oops.txt', 00400) 

如 果 你 不 想 用 压缩 过 的 八进制 值 并 且 更 喜欢 那些 (有 点 ) 难 懂 的 符号 ， 可 以 从 stat 模块 中 
导入 一 些 常量 并 用 在 语句 中 : 


>>> import stat 
>>> os.chmod('oops.txt', stat.S_IRUSR) 


10.1.8 用 chown() 修 改 所 有 者 


这 个 函数 也 是 Unix/Linux/Mac 特有 的 。 你 可 以 指定 用 户 的 ID (uid) 和 用 户 组 ID (gid) 来 
修改 文件 的 所 有 者 和 /或 所 有 用 户 组 : 
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>>> uid = 5 
>>> gid = 22 
>>> os.chown('oops', uid, gid) 


10.1.9 用 abspath() 获 取 路 径 名 
这 个 函数 会 把 一 个 相对 路 径 名 扩展 成 绝对 路 径 名 。 如 果 你 的 当前 目录 是 /usr/gabenlunzie， 
其 中 有 文件 oops.txt， 那 你 可 以 用 这 个 函数 得 到 下 面 的 输出 : 


>>> os.path.abspath('oops.txt') 
'/usr/gaberlunzie/oops.txt' 


10.1.10 ”用 realpath() 获 取 符号 的 路 径 名 


在 之 前 的 几 节 中 ， 我 们 创建 了 一 个 oops.txt 到 jeepers.txt 的 符号 链接 。 在 这 种 情况 下 ， 你 可 
以 使 用 realpath() 函数 从 jeepers.txt 获取 名 称 oops.txt， 如 下 所 示 : 


>>> os.path.realpath('jeepers.txt') 
' /usr/gaberlunzie/oops.txt' 


10.1.11 用 remove() 删 除 文件 
下 面 的 例子 使 用 remove() 函数 来 删除 oops.txt 文件 : 


>>> os.remove('oops.txt') 
>>> os.path.exists('oops.txt') 
False 


10.2 目录 

在 大 多 数 操作 系统 中 ， 文 件 被 存储 在 多 级 目录 (现在 经 常 被 称 为 文件 夫 ) 中 。 包 含 所 有 这 
些 文件 和 目录 的 容器 是 文件 系统 (有 时 候 被 称 为 卷 )。 标 准 模块 os 可 以 处 理 这 些 东西 ， 下 
面 是 一 些 可 以 使 用 的 函数 。 


10.2.1 使 用 mkdir() 创 建 目 录 
下 面 的 例子 展示 了 如 何 创建 目录 poenms: 


>>> os.mkdir('poems') 
>>> os.path.exists('poems') 
True 


10.2.2 ”使 用 rmdir() 删 除 目 录 
假如 你 现在 发 现 不 需要 这 个 目录 ， 可 以 用 这 个 函数 来 删除 目录 : 


>>> os.rmdir('poems ') 
>>> os.path.exists('poems') 
False 





















































10.2.3 ”使 用 tistdir() 列 出 目录 内 容 
你 又 后 悔 了 ， 来 重新 创建 poems 并 加 入 一 些 内 容 : 


>>> os.mkdir('poems') 
现在 列 出 它 的 内 容 (目前 还 是 空 ) : 


>>> os.listdir('poems') 


[] 
接着 创建 一 个 子 目 录 : 


>>> os.mkdir('poems/mcintyre') 
>>> os.listdir('poems') 
['mcintyre'] 


在 这 个 子 目录 中 ， 创 建 一 个 文件 (不 要 手动 输入 这 些 文字 ， 除 非 你 真 的 很 喜欢 这 首 诗 ， 一 
定 要 确保 文中 的 单 引 号 和 三 引号 可 以 正确 匹配 ) : 


>>> fout = open('poems/mcintyre/the_good man', 'wt') 
>>> fout.write('''Cheerful and happy was his mood, 

.. He to the poor was kind and good, 

. And he oft' times did find them food, 

. Also supplies of coal and wood, 

. He never spake a word was rude, 

. And cheer'd those did o'er sorrows brood, 

. He passed away not understood, 

. Because no poet in his lays 

. Had penned a sonnet in his praise, 

. 'Tis sad, but such is world's ways. 


Ws 

















344 
>>> fout.close() 
最 后 来 看 看 目录 中 有 什么 : 


>>> os.listdir('poems/mcintyre') 
['the_good_man'] 


10.2.4 使 用 chdir() 修 改 当 前 目录 
你 可 以 使 用 这 个 函数 从 一 个 目录 跳 转 到 另 一 个 目录 。 我 们 从 当前 目录 跳 转 到 poens 目录 中 : 


>>> import os 

>>> os.chdir('poems') 
>>> os.listdir('.') 
['mcintyre'] 


10.2.5 ”使 用 glob() 列 出 匹配 文件 


glob() 函数 会 使 用 Unix shell 的 规则 来 匹配 文件 或 者 目录 ， 而 不 是 更 复杂 的 正则 表达 式 。 
具体 规则 如 下 所 示 : 











。 * 会 匹配 任意 名 称 (re 中 是 .*) 

。 ?会 匹配 一 个 字符 

。 [abc] 会 匹配 字符 a、b 和 c 

。 [!abc] 会 匹配 除了 a、b 和 < 之 外 的 所 有 字符 


试 着 获取 所 有 以 nm 开头 的 文件 和 目录 : 
>>> import glob 
>>> glob.glob('m*') 
['mcintyre'] 


获取 所 有 名 称 为 两 个 字符 的 文件 和 目录 : 


>>> glob.glob('??') 
[] 





获取 名 称 为 8 个 字符 并 且 以 m 开头 和 以 e 结尾 的 文件 和 目录 : 





['mcintyre'] 
获取 所 有 以 k、1 或 者 m 开头 并 且 以 e 结 尾 的 文件 和 目录 ; 


>>> glob.glob('[klm]*e') 
['mcintyre'] 


10.3 程序 和 进程 














当 运 行 一 个 程序 时 ， 操 作 系 统 会 创建 一 个 进程 。 它 会 使 用 系统 资源 (CPU、 内 存 和 磁盘 空 


间 ) 和 操作 系统 内 核 中 的 数据 结构 (文件 、 网 络 连接 、 用 量 统 计 等 )。 进 程 之 间 是 互相 隔 
离 的 ， 即 一 个 进程 既 无 法 访问 其 他 进程 的 内 容 ， 也 无 法 操作 其 他 进程 。 

















操作 系统 会 跟踪 所 有 正在 运行 的 进程 ， 给 每 个 进程 一 小 段 
程 ， 这 样 既 可 以 做 到 公平 又 可 以 响应 用 户 操 作 。 你 可 以 在 




















时 间 ， 然 后 切换 到 其 他 进 











Mac OS X 上 可 以 使 用 活动 监视 器 ， 在 Windows 上 可 以 使 用 





器 
你 也 可 以 自己 编写 程序 来 获取 进程 信息 。 标 准 库 模 块 os 提供 了 一 些 
息 的 函数 。 举 例 来 说 ， 下 面 的 函数 会 获取 正在 运行 的 Python 解释 器 




















作 目 录 : 


>>> import os 

>>> os.getpid() 

76051 

>>> os.getcwd() 

' /Users/williamlubanovic' 


下 面 的 函数 会 获取 我 的 用 户 ID 和 用 户 组 ID: 


>>> os.getuid() 
501 
>>> os.getgid() 
20 





面 中 查看 进程 状态 ， 在 





商 


用 的 获取 系统 信 





常 
的 进程 号 和 当前 工 





10.3.1 使 用 subprocess 创 建 进程 


到 目前 为 止 ， 你 看 到 的 所 有 程序 都 是 单 进程 程序 。 你 可 以 使 用 Python 标准 库 中 的 
ee 模块 来 启动 和 终止 其 他 程序 。 如 果 只 是 想 在 shell 中 运行 其 他 程序 并 获取 它 的 输 
出 (标准 输出 和 标准 错误 输出 )， 可 以 使 用 getoutput() 函数 。 这 里 获取 了 Unix date 程序 
的 输出 : 
>>> import subprocess 
>>> ret = subprocess.getoutput('date') 


>>> ret 
'Sun Mar 30 22:54:37 CDT 2014" 


在 进程 执行 完毕 之 前 ， 你 获取 不 到 任何 内 容 。 如 果 需 要 调用 一 些 比 较 耗 时 的 程序 ， 可 以 使 
用 11.1 节 提 到 的 并 发 。 因 为 getoutput() 的 参数 是 一 个 字符 串 ， 可 以 表示 一 个 完整 的 shell 
命令 ， 所 以 你 可 以 在 里 面 使 用 参数 、 管 道 、IO 重 定向 < 和 >， 等 等 : 

>>> ret = subprocess.getoutput('date -u') 


>>> ret 
'Mon Mar 31 03:55:01 UTC 2014" 


把 这 个 输出 用 管道 传 给 wc 命令， 可 以 计算 出 一 共有 1 行 、6 个 单词 和 29 个 字符 : 


>>> ret = subprocess.getoutput('date -U | wc') 
>>> ret 
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另 一 个 类 似 的 方法 是 check_output()， 可 以 接受 一 个 命令 和 参数 列表 。 默 认 情 况 下 ， 它 返 
回 的 不 是 字符 串 ， 而 是 字 节 类 型 的 标准 输出 。 此 外 ， 这 个 函数 并 疫 有 使 用 shell: 
>>> ret = subprocess.check_output([ date'，'-U']) 


>>> ret 
b'Mon Mar 31 04:01:50 UTC 2014N\n' 


如 果 要 获取 其 他 程序 的 退出 状态 ， 可 以 使 用 getstatusoutput() 函数 ， 它 会 返回 一 个 包含 
状态 码 和 输出 的 元 组 : 


>>> ret = subprocess.getstatusoutput('date') 
>>> ret 
(0, 'Sat Jan 18 21:36:23 CST 2014 ' ) 


如 果 只 想 要 退出 状态 ， 可 以 使 用 catLL() : 


>>> ret = subprocess.call('date') 
Sat Jan 18 21:33:11 CST 2014 

>>> ret 

0 


(在 Unix 类 操作 系统 中 ， 退 出 状态 


0 1 
本 例 中 ， 日 期 和 时 间 被 打印 到 输出 中 ， 
态 码 。 


你 可 以 用 两 种 方式 来 运行 带 参 数 的 程序 。 第 一 种 是 在 字符 串 中 写 明 参数 。 我 们 的 示例 中 使 




















通常 表示 运行 成 功 。) 
但 是 并 没有 被 我 们 的 程序 获取 ， 所 以 ret 中 只 有 状 
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— 


用 的 是 date -u， 这 会 打印 出 UTC 格式 的 当前 日 期 和 时 间 ( 稍 后 会 有 UTC 的 解释 ) : 


>>> ret = subprocess.call('date -u', shell=True) 
Tue Jan 21 04:40:04 UTC 2014 


需要 加 上 参数 shell=True， 这 样 函数 就 会 用 shell 来 执行 命令 ，shell 会 把 date -u 分割 成 间 
独 的 字符 串 并 对 通配符 (比如 *， 我 们 的 例子 中 没有 使 用 它 ) 进行 扩展 。 
第 二 种 方式 是 传人 一 个 参数 列表 ， 这 样 函数 就 不 需要 调用 shell: 


>>> ret = subprocess.call(['date'’, '-u']) 
Tue Jan 21 04:41:59 UTC 2014 




















10.3.2 ”使 用 multiprocessing 创 建 进程 


你 可 以 在 一 个 单独 的 进程 中 运行 一 个 Python 函数， 也 可 以 使 用 multiprocessing 模块 在 
一 个 程序 中 运行 多 个 进程 。 下 面 的 例子 做 了 一 些 很 无 聊 的 事 ， 把 它 存 储 为 mp.py， 然 后 用 


python mp.py 运行 它 : 


























import multiprocessing 
import os 


def do_this(what): 
whoami(what) 


def whoami(what): 
print("Process %s says: %s" % (os.getpid(), what)) 


if _ name _ == "__main _": 
whoami("I'm the main program") 
for n in range(4): 
p = multiprocessing.Process(target=do_this, 
args=("I'm function %s" % n,)) 
p.start() 


运行 时 得 到 如 下 输出 : 


Process 6224 says: 
Process 6225 says: 
Process 6226 says: 
Process 6227 says: 
Process 6228 says: 


Process() 函数 会 创建 一 个 新 进程 来 运行 do_this() 函数 。 由 于 我 们 在 一 个 循环 中 执行 它 ， 
所 以 生成 了 4 个 执行 do_this() 的 进程 并 在 执行 完毕 后 退出 。 


multiprocessing 模块 真正 的 功能 比 这 个 例子 中 所 展示 的 要 强大 得 多 。 当 你 需要 用 多 进程 来 
减少 运行 时 间 时 ， 它 非常 有 用 ， 比 如 下 载 需要 抓 取 的 网 页 、 调 整 图 片 尺 寸 等 。 它 支持 任务 
队列 和 进程 间 通 信 ， 而 且 可 以 等 待 所 有 进程 执行 完毕 。11.1 市 会 详细 讲解 。 

10.3.3 ”使 用 terminate() 终 止 进程 

如 果 创 建 了 一 个 或 者 多 个 进程 并 且 想 终止 它们 (可 能 是 因为 进入 了 死 循 环 ， 也 可 能 是 因 


m the main program 
m function 0 
'm function 1 
m function 2 
m function 3 


Yt ed het het od 
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为 你 觉得 很 无 聊 ， 还 有 可 能 是 因为 你 只 是 想 干 坏事 )， 可 以 使 用 terminate()。 下 面 的 例子 
中 ， 我 们 的 进程 会 一 直 计 数 到 百 万 ， 每 次 计数 之 后 都 会 等 待 1 秒 并 打印 出 相关 信息 。 然 
而 ， 主 程序 只 会 保持 5 秒 耐心 ， 之 后 就 会 终止 进程 : 

import multiprocessing 


import time 
import os 








def whoami(name): 


print("I'm %s, in process %s" % (name, os.getpid())) 


def loopy(name): 


_Name == ”main _": 


whoami (name) 

start = 1 

stop = 1000000 

for num in range(start, stop): 
print("\tNumber %s of %s. Honk!" % (num, stop)) 
time.sleep(1) 


whoami( "main" 

p = multiprocessing.Process(target=loopy, args=("loopy",)) 
p.start() 

time.sleep(5) 

p.terminate() 


运行 程序 时 得 到 如 下 输出 : 


I'm main, in process 97080 
I'm loopy, in process 97081 


Number 1 of 1000000. Honk! 
Number 2 of 1000000. Honk! 
Number 3 of 1000000. Honk! 
Number 4 of 1000000. Honk! 
Number 5 of 1000000. Honk! 


10.4 日 期 和 时 间 


程序 员 们 需要 花费 大 量 时 间 来 处 理 日 期 和 时 间 。 我 们 会 讨论 一 些 常 见 的 问题 ， 之 后 会 介绍 
一 些 对 应 的 最 佳 实践 和 能 够 帮助 缓解 问题 的 小 技巧 。 

可 以 用 多 种 方式 来 表示 日 期 ， 甚 至 多 到 让 人 厌烦 。 即 使 是 使 用 罗马 历 的 英语 国家 也 有 很 多 
表示 日 期 的 方法 : 

。 July 29 1984 

。 29 Jul 1984 


。 29/7/1984 
。 7/29/1984 








表示 日 期 的 第 一 个 问题 就 是 二 义 性 。 从 上 面 的 例子 可 以 很 容易 看 出 ，7 表示 月 份 ，29 表示 


天 数 ， 

















因为 月 份 不 可 能 是 29。 但 是 1/6/2012 呢 ? 它 到 底 是 1 月 6 日 还 是 6 月 1 日 呢 ? 














罗马 历 中 ， 月 份 的 名 字 在 不 同 语言 中 差别 很 大 。 在 其 他 文化 中 ， 年 份 和 月 份 本 身 的 定义 都 
有 可 能 不 一 样 。 
国 年 是 另 一 个 问题 。 你 可 能 知道 ， 每 隔 4 年 会 出 现 一 个 国 年 (夏季 奥运 会 和 美国 总 统 选 举 
也 是 隔 四 年 一 次 )。 不 过 你 知道 吗 ， 年 份 是 整 百 数 时 ， 必 须 是 400 的 倍数 才 是 半年 。 下 面 
的 代码 可 以 检测 是 否 是 半年 : 

>>> import calendar 

>>> calendar .isleap(1900) 

False 

>>> calendar .isleap(1996) 

True 

>>> calendar.isleap(1999) 

False 

>>> calendar.isleap(2000) 

True 

>>> calendar.isleap(2002) 

False 

>>> calendar .isleap(2004) 

True 


时 间 则 有 另外 的 问题 ， 主 要 是 因为 时 区 以 及 夏 时 制 。 观 察 时 区 图 会 发 现 ， 时 区 是 按照 政治 
和 历史 因素 分 割 的 ， 并 不 是 按照 经 度 15 度 (360 度 /24) 分 割 。 不 同 国家 每 年 夏 时 制 的 开 
始 和 结束 时 间 也 不 一 样 。 实 际 上 ， 南 半球 和 北半球 的 夏 时 制 时 间 段 刚好 相反 ( 细 想 就 知道 
原因 了 )。 


Python 的 标准 库 中 有 很 多 日 期 和 时 间 模 块 ，datetime、time、calendar 、dateutil， 等 等 。 
有 些 在 功能 上 有 重复 ， 还 有 点 不 好 理解 。 

































































10.4.1 datetime 模块 
首先 介绍 一 下 标准 datetime 模块 。 它 定义 了 4 个 主要 的 对 象 ， 每 个 对 象 都 有 很 多 方法 : 


。 date 处 理 年 、 月 、 日 

。 time 处 理 时 、 分 、 秒 和 分 数 

。 datetime 处 理 日 期 和 时 间 同 时 出 现 的 情况 
。 timedelta 处 理 日 期 和 /或 时 间 间 隔 


你 可 以 指定 年 、 月 、 日 ， 来 创建 一 个 date 对 象 。 这 些 值 之 后 会 变 成 对 象 的 属性 : 


>>> from datetime import date 

>>> halloween = date(2014, 10, 31) 
>>> halloween 

datetime.date(2014, 10, 31) 

>>> halloween.day 

31 

>>> halloween.month 

10 

>>> halloween.year 

2014 



























































可 以 使 用 isoformat() 方法 打印 一 个 date 对 象 : 

>>> haLLoween .isoformat() 

'2014-10-31" 
iso 是 指 ISO 8601， 一 种 表示 日 期 和 时 间 的 国际 标准 。 这 个 标准 的 显示 | 
到 特殊 (日 )。 它 也 可 以 对 日 期 进行 正确 的 排序 ， 先 按照 年 ， 然 后 是 月 








贰 序 是 从 一 般 (年 ) 
， 最 后 是 日 。 我 经 


常 在 程序 中 使 用 这 种 格式 表示 日 期 ， 还 会 在 存储 和 日 期 相关 的 数据 时 当 作文 件 名 。 下 一 节 
会 介绍 更 复杂 的 strptime() 和 strftime() 方法 ， 它 们 分 别 用 来 解析 和 格式 化 日 期 。 








下 面 的 例子 使 用 today() 方法 生成 今天 的 日 期 : 
>>> from datetime import date 
>>> now = date.today() 
>>> NoOw 
datetime.date(2014, 2, 2) 


看 的 例子 使 用 timedelta 对 象 来 实现 date 的 加 法 : 


>>> from datetime import timedelta 
>>> one_day = timedelta(days=1) 
>>> tomorrow = now + one_day 

>>> tomorrow 

datetime.date(2014, 2, 3) 

>>> now + 17xone_day 
datetime.date(2014, 2, 19) 

>>> yesterday = now - one_day 

>>> yesterday 

datetime.date(2014, 2, 1) 














本 























date 的 范围 是 date.min (年 =1， 月 =1, 日 =1) 到 date.max (年 =9999， 月 =12， 


日 =31)。 因 此 ， 不 能 使 用 它 来 进行 和 历史 或 者 天 文 相 关 的 计算 。 
datetime 模块 中 的 time 对 象 用 来 表示 一 天 中 的 时 间 : 


>>> from datetime import time 
>>> noon = time(12, 0, 0) 
>>> Noon 
datetime.time(12, 0) 

>>> noon.hour 

12 

>>> noon.minute 

0 

>>> noon.second 

0 

>>> noon.microsecond 

0 








参数 的 顺序 是 按照 时 间 单位 从 大 (时) 到 小 〈 微 秒 ) 排列 。 如 果 没 有 参数 ，time 会 默认 全 
部 使 用 0。 顺便 说 一 句 ， 能 够 存 取 微 秒 并 不 意味 着 你 能 从 计算 机 中 得 到 准确 的 微 秒 。 每 秒 

















的 准确 度 取决 于 硬件 和 操作 系统 中 的 很 多 因素 。 














datetime 对 象 既 包含 日 期 也 包含 时 间 。 你 可 以 直接 创建 一 个 datetime 对 象 ， 如 下 所 示 ， 表 


示 2014 年 1 月 2 日 上 午 3:04, 5 秒 6 微 秒 . 
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>>> from datetime import datetime 

>>> Some_day = datetime(2014, 1, 2, 3, 4, 5, 6) 
>>> some_day 

datetime.datetime(2014, 1, 2, 3, 4, 5, 6) 


datetime 对 象 也 有 一 个 isoformat() 方法 : 


>>> some_day.isoformat() 
'2014-01-02T03:04:05.000006' 


中 间 的 T 把 日 期 和 时 间 分 割 开 。 
datetime 有 一 个 now() 方法 ， 可 以 用 它 获取 当前 日 期 和 时 间 : 


rr 





>>> from datetime import datetime 

>>> now = datetime.now() 

>>> NOw 

datetime.datetime(2014, 2, 2, 23, 15, 34, 694988) 
14 

>>> now.month 


>>> now.day 
>>> now.hour 
>>> now.minute 


>>> now.second 

34 

>>> now.microsecond 
694988 


可 以 使 用 combine() 方法 把 一 个 date 对 象 和 一 个 time 对 象 合 并 成 


>>> from datetime import datetime, time, date 
>>> noon = time(12) 

>>> this_day = date.today() 

>>> noon_today = datetime.combine(this_day, noon) 
>>> noon_today 

datetime.datetime(2014, 2, 2, 12, 0) 





也 可 以 使 用 date() 和 time() 方法 从 datetime 中 取出 date 和 time 


>>> noon_today.date() 
datetime.date(2014, 2, 2) 
>>> noon_today.time() 
datetime.time(12, 0) 


10.4.2 ”使 用 time 模 块 





一 个 datetime 对 象 : 


部 分 : 





Python 的 datetime 模块 中 有 一 个 time 对 象 ，Python 还 有 一 个 单独 
人 困扰 。 此 外 ，time 模块 还 有 一 个 函数 叫 作 time()。 





的 time 模块 ， 这 有 点 令 





一 种 表示 绝对 时 间 的 方法 是 计算 从 某 个 起 始点 开始 的 秒 数 。Unix 时 间 使 用 的 是 从 1970 年 
1 月 1 日 0 点 开始 的 秒 数 '。 这 个 值 通常 被 称 为 纪元 ， 它 是 不 同系 统 之 间 最 简单 的 交换 日 期 
时 间 的 方法 。 

time 模块 的 time() 函数 会 返回 当前 时 间 的 纪元 值 : 


>>> import time 

>>> now = time.time() 
>>> Now 
1391488263.664645 


数 一 下 位 数 ， 从 1970 年 新 年 到 现在 已 经 过 去 了 超过 十 亿 秒 。 时 间 都 去 哪儿 了 ? 
可 以 用 ctime() 把 一 个 纪元 值 转 换 成 一 个 字符 串 : 


>>> time.ctime(now) 
'Mon Feb 3 22:31:03 2014' 


下 一 市 会 介绍 如 何 生 成 其 他 格式 的 日 期 和 时 间 。 


纪元 值 是 不 同系 统 (比如 JavaScript) 之 间 交 换 日 期 和 时 间 的 一 种 非常 有 用 的 方法 。 但 是 ， 
有 时 候 想 要 真正 的 日 期 而 不 是 一 串 数 字 ， 这 时 可 以 使 用 struct_time 对 象 。LocalLtime() 会 
返回 当前 系统 时 区 下 的 时 间 ，gmtime() 会 返回 UTC 时 间 : 

>>> time.localtime(now) 

time.struct_time(tm_ year=2014, tm_mon=2, tm_mday=3, tm_hour=22, tm_min=31, 

tm_sec=3, tm _wday=0, tm_yday=34, tm_isdst=0) 

>>> time.gmtime(now) 

time.struct_time(tm year=2014, tm_mon=2, tm_mday=4, tm_hour=4, tm_min=31, 

tm_sec=3, tm _wday=1, tm_yday=35, tm_isdst=0) 


在 我 所 处 的 时 区 (中 央 时 区 )，22:31 是 UTC (正式 称呼 是 格林 威 治 时 间或 者 祖 鲁 时 间 ) 第 
二 天 的 04:31。 如 果 省 略 localtime() 或 者 gmtime() 的 参数 ， 默 认 会 返回 当前 时 间 。 
对 应 上 面 两 个 函数 的 是 mktime()， 它 会 把 struct_time 对 象 转换 回 纪元 值 : 


>>> tm = time.LocaLtime(now) 
>>> time.mktime(tm) 
1391488263.0 


这 个 值 和 之 前 now() 返回 的 纪元 值 并 不 完全 相同 ， 因 为 struct_time 对 象 只 能 精确 到 秒 。 

一 些 建议 : 尽量 多 使 用 UTC 来 代替 时 区 。UTC 是 绝对 时 间 ， 和 时 区 无 关 。 如 果 你 有 服务 
器 ， 把 它 的 时 间 设 置 为 UTC， 不 要 使 用 本 地 时 间 。 

还 有 一 些 建议 (都 是 免费 的 ) : 如 果 有 可 能 ， 绝 对 不 使 用 夏 时 制 时 间 。 如 果 使 用 了 夏 时 制 
时 间 ， 那 每 年 的 一 段 时 间 (春季 ) 会 少 一 个 小 时 ， 男 一 段 时 间 (秋季 ) 会 多 一 个 小 时 。 出 
于 某 些 原因 ， 许 多 组 织 在 它们 的 计算 机 系统 中 使 用 夏 时 制 ， 但 是 每 年 都 需要 处 理 数 据 重复 
和 丢失 。 说 起 来 都 是 泪 。 


































































































注 1: 开始 时 间 大 约 与 Unix 出 现 的 时 间 吻 合 。 
注 2: 美国 新 年 是 中 国 的 元 旦 。 一 一 译 者 注 
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10.4.3 


isoformat() 并 不 是 唯 




















读 写 日 期 和 时 间 
种 可 以 打印 日 期 和 时 间 的 方法 。 前 面 已 经 见 过 ， 


ctime() 函数 可 以 把 纪元 转换 成 字符 串 : 


>>> import time 

>>> now = time.time() 

>>> time.ctime(now) 

'Mon Feb 3 21:14:36 2014" 





别 忘 了 ，UTC 指 时 间 ，UTF-8 指 字符 串 (更 多 关于 UTF-8 的 内 容 参见 第 7 章 )。 


time 模块 中 的 


也 可 以 使 用 strftime() 把 日 期 和 时 间 转 换 成 字符 串 。 这 个 方法 在 datetime、date 和 time 对 


象 中 都 有 ， 在 time 模块 中 也 有 。strftime() 使 用 格式 化 字符 串 来 指定 输出 ， 详 见 表 10-1。 
表 10-1: strftime() 的 格式 化 字符 串 


























格式 化 字符 串 日 期 /时 间 单 元 范围 

多 年 1900-... 
%m 月 01-12 

%B 月 名 January,... 
‰b 月 名 缩写 Jan，，,， 

%d 日 01-31 

%A 星期 Sunday,... 
%a 星期 缩写 Sun,... 
和 时 (24 小 时 制 ) 00-23 

多 时 (12 小 时 制 ) 61-12 

%p 上 午 / 下 午 AM, PM 

%M 分 00-59 

人 秒 00-59 
数字 都 是 左 侧 补 零 。 





7 











定义 格式 化 字符 串 fnt， 然 后 使 用 它 : 


>>> import time 


>>> fmt = "It's %A, %B %d, %Y, local time %I:%M:%S%p" 


>>> t = time.localtime() 
ep 七 


time.struct_time(tm_year=2014, tm_mon=2, tm_mday=4, tm_hour=19, 
tm_min=28, tm_sec=38, tm wday=1, tm _yday=35, tm isdst=0) 


>>> time.strftime(fmt, t) 


"It's Tuesday, February 04, 2014, local time 07:28:38PM" 


如 果 使 用 date 对 象 的 strftime() 函数 ， 只 能 获取 日 期 部 分 ， 时 间 上 默认 是 午夜 : 


下 面 是 time 模块 中 的 strftime() 函数 。 它 会 把 struct_time 对 象 转换 成 字符 串 。 我 们 首先 
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对 于 


>>> from datetime import date 

>>> Some_day = date(2014, 7, 4) 

>>> fmt = "It's %B %d, %Y, local time %I:%M:%S%p" 
>>> some_day.strftime(fmt) 

"It's Friday, July 04, 2014, local time 12:00:00AM" 


time 对 象 ， 只 会 转换 时 间 部 分 : 


>>> from datetime import time 

>>> some_ time = time(10, 35) 

>>> some_time.strftime(fmt) 

"It's Monday, January 01, 1900, local time 10:35:00AM" 











显然 ， 你 肯定 不 想 使 用 time 对 象 的 时 间 部 分 ， 因 为 它们 之 无 意义 。 





























如 果 要 把 字符 串 转换 成 日 期 或 者 时 间 ， 可 以 对 同样 的 格式 化 字符 串 使 用 strptime() 函数 。 
这 里 不 能 使 用 正则 表达 式 ， 字 符 串 的 非 格式 化 部 分 (没有 % 的 部 分 ) 必须 完全 匹配 。 假 设 


可 以 


匹配 格式 “年 一 月 -日 ”"， 比 如 2012-61-29， 如 果 目 标 字符 串 中 用 空格 代替 破 折 号 ， 


解析 时 会 发 生 什么 呢 ? 


>>> import time 
>>> fmt = "%Y-%m-%d" 
>>> time.strptime("2012 01 29", fmt) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/Library/Frameworks/Python.framework/Versions/3.3/1lib/ 
python3.3/_strptime.py", line 494, in _strptime time 
tt = _strptime(data_string, format)[0] 
File "/Library/Frameworks/Python.framework/Versions/3.3/1lib/ 
python3.3/_strptime.py", line 337, in _strptime 
(data_string, format)) 
ValueError: time data '2012 01 29' does not match format '%Y-%m-%d' 


如 果 传 入 strptime() 的 字符 串 中 有 破 折 号 会 怎么 样 呢 ? 


现在 





>>> time.strptime("2012-01-29", fmt) 
time.struct_time(tm year=2012, tm_mon=1, tm_mday=29, tm_hour=0, tm_min=0, 
tm_sec=0, tm wday=6, tm_yday=29, tm isdst=-1) 


可 以 正常 解析 了 。 


即使 字符 串 看 起 来 可 以 匹配 格式 ， 但 如 果 超 出 取 值 范围 也 会 报错 : 





>>> time.strptime("2012-13-29", fmt) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/Library/Frameworks/Python.framework/Versions/3.3/1lib/ 
python3.3/_strptime.py", line 494, in _strptime time 
tt = _strptime(data_string, format)[0] 
File "/Library/Frameworks/Python.framework/Versions/3.3/1lib/ 
python3.3/_strptime.py", line 337, in _strptime 
(data_string, format)) 
ValueError: time data '2012-13-29' does not match format '%Y-%m-%d' 








名 称 通过 你 的 locale 设置 ， 这 是 操作 系统 中 的 国际 化 设置 。 如 果 要 打印 出 不 同 的 月 和 日 名 
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称 ， 可 以 通过 setlocale() 来 修改 。 这 个 函数 的 第 一 个 参数 是 locale.LC_TIME， 表 示 设 置 
的 是 日 期 和 时 间 ， 第 二 个 参数 是 一 个 结合 了 语言 和 国家 名 称 的 缩写 字符 串 。 假 设 我 们 邀请 
了 一 些 国 际 友 人 来 参加 万 圣 市 派对 ， 需 要 分 别 打 印 出 美国 英语 、 法 语 、 德 语 、 西 班 牙 语 和 
冰岛 语 中 的 月 、 日 和 具体 的 星期 。( 什 么 ?你 觉得 冰岛 人 并 不 喜欢 这 样 的 派对 ? 错 ! 他 们 
甚至 有 真正 的 精灵 。) 


>>> import locale 

>>> from datetime import date 

>>> halloween = date(2014, 10, 31) 

>>> for Lang_country in ['en_us', 'fr_fr', 'de de', 'es es', 'is is',]: 
locale.setlocale(locale.LC_TIME, lang_country) 
halloween.strftime('%A, %B %d') 





























"en_us' 


'Friday, October 31' 
ef 

'Vendredi, octobre 31' 
'de_de! 

'Freitag, Oktober 31' 
"es_es ' 

'viernes, octubre 31' 
'is_is!' 

"fostudagur ，oktober 31' 
>>> 














去 哪儿 找 这 些 神奇 的 Lang_country 值 呢 ?” 虽 然 不 是 特别 靠 谱 ， 不 过 可 以 用 下 面 的 方式 来 获 
取 所 有 值 (有 好 儿 百 种 ) : 


>>> import locale 
>>> names = locale.locale alias.keys() 





我 们 从 names 中 过 滤 出 可 以 用 在 settocate() 中 的 名 称 ， 它 们 的 格式 和 之 前 例子 中 的 类 似 ， 
两 个 字符 构成 的 语言 代码 (http://en.wikipedia.org/wiki/List_of_ISO_639-1_codes) 加 一 个 下 
划 线 和 两 个 字符 构成 的 国家 代码 (http://en.wikipedia.org/wiki/ISO_3166-1_alpha-2) : 





>>> good_names = [name for name in names if \ 
len(name) == 5 and name[2] == '_'] 


看 看 前 5 个 是 什么 ? 


>>> good_names[ :5] 
['sr cs'，'de at', 'nl_nl', 'es_ni', 'sp_yu'] 


如 果 想 获取 所 有 的 德国 语言 ， 试 试 这 个 : 





>>> de = [name for name in good_names if name.startswith('de')] 
>>> de 


['de_at', 'de de', 'de ch', 'de lu', 'de be'] 


10.4.4 ”其 他 模块 


如 果 你 觉得 标准 库 模 块 不 好 用 或 者 没有 你 想 要 的 功能 ， 可 以 试 试 下 面 这 些 第 三 方 模块 。 
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。 arrow (http://crsmithdev.com/arrow/) 
这 个 模块 有 许多 日 斯 和 时 间 函 数 ， 并 提供 了 简单 易 用 的 API。 
。 dateutil (http://labix.org/python-dateutil) 
这 个 模块 可 以 解析 绝 大 多 数 日 期 格式 ， 并 且 可 以 很 好 地 处 理 相对 日 期 和 时 间 。 
。 iso8601 (https://pypi.python.org/pypi/iso8601) 
这 个 模块 会 完善 标准 库 中 对 于 ISO8601 格式 的 处 理 。 
。 fleming (https://github.com/ambitioninc/fleming) 
这 个 模块 提供 了 许多 时 区 函数 。 


10.5 ”练习 


(1) 把 当前 日 期 以 字符 串 形式 写 入 文本 文件 today.txt。 

(2) 从 today.txt 中 读 取 字符 串 到 today_string 中 。 

(3) 从 today_string 中 解析 日 期 。 

(4) 列 出 当前 目录 下 的 文件 。 

(5) 列 出 父 目录 下 的 文件 。 

(6) 使 用 multiprocessing 创建 三 个 进程 ， 让 它们 等 待 随机 的 秒 数 (范围 1~5)， 打 印 出 当前 
时 间 并 退出 。 

(7) 用 你 的 生日 创建 一 个 date 对 象 。 

(8) 你 的 生日 是 星期 几 ? 

(9) 你 出 生 10 000 天 的 日 期 是 什么 ? 





[oD 
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并 发 和 网 络 


“时 间 是 大 自然 防止 所 有 事情 同时 发 生 的 一 种 方法 。 空 间 是 防止 所 有 事情 都 发 生 


在 我 身上 的 方法 。” 


一 一 关于 时 间 的 名 言 (http://en.wikiquote.org/wiki/Talk:Time ) 


到 目前 为 止 ， 你 写 过 的 大 多 数 程序 都 是 在 一 个 地 方 人 








台 机 器 ) 一 次 运行 一 行 (顺序 执 





行 )。 但 是 ,我们 可 以 在 多 个 地 方 (分 布 式 计算 或 者 网 络 ) 同时 做 很 多 事 (并 发 )。 这 样 做 


有 很 多 好 处 。 
二 性 能 各 已 


你 的 目标 是 让 高 速 部 件 不 间断 运行 ， 不 用 等 待 慢 速 部 件 。 


。 章 棒 性 








数量 可 以 提高 安全 性 ， 可 以 同时 执行 多 个 相同 任务 ， 这 样 就 不 用 担心 出 现 硬件 和 软件 


错误 。 
。 简化 


最 佳 实践 是 把 复杂 任务 分 解 成 许多 小 任务 


。 通信 





发 送 数据 并 接收 新 数据 本 身 就 是 一 件 非 常 有 趣 的 事 。 


我 们 从 并 发 开始 ， 先 用 第 Ree 进程 和 线程 
之 后 会 介绍 其 他 方法 ， 比 如 回调 、 多 
技术 开始 ， 逐 步 扩展 到 其 他 方面 。 





， 这 样 更 容易 创建 、 











理解 和 修复 。 





序 。 





后 会 使 用 网 络 技术 ， 仍然 是 从 并 发 


229 


在 编写 本 书 时 ， 本 章 介 绍 的 一 些 Python 包 还 没有 兼容 Python 3。 大 多 数 情 
况 下 的 示例 代码 只 能 在 Python 2 的 解释 器 中 运行 ， 这 个 解释 器 我 们 称 之 为 
python2 。 








11.1 并 发 


Python 官网 基于 标准 库 (https://docs.python.org/3/library/concurrency.html) 介绍 了 常见 的 并 

发 技术 。 页 面 中 提 到 了 很 多 包 和 技术 ， 本 章 会 介绍 其 中 最 有 用 的 部 分 。 

在 计算 机 中 ， 如 果 你 的 程序 在 等 待 ， 通 常 是 因为 以 下 两 个 原因 。 

。 LO 限制 
这 个 限制 很 常见 。 计 算 机 的 CPU 速度 非常 快 比 计算 机 内 存 快 儿 百倍 ， 比 硬盘 或 者 
网 络 快 几 千 倍 。 

。 CPU 限制 

在 处 理 数字 运算 任务 时 ， 比 如 科学 计算 或 者 图 形 计算 ,很 容易 遇 到 这 个 限制 。 

以 下 是 和 并 发 相关 的 两 个 术语 。 









































。 同步 
一 件 事 接着 一 件 事 发 生 ， 就 像 送 莫 队 伍 一 样 。 
。 异步 


任务 是 互相 独立 的 ， 就 像 派 对 参与 者 从 不 同 的 车 上 下 来 一 样 。 
当 你 要 用 简单 的 系统 和 任务 来 处 理 现 实 中 的 问题 时 ， 迟 早 需要 处 理 并 发 。 假 设 你 有 一 个 网 
站 ， 必 须 给 用 户 很 快 地 返回 静态 和 动态 网 页 。 一 秒 是 可 以 接受 的 ， 但 是 如 果 展 示 或 者 交互 
需要 很 长 时 间 ， 用 户 就 会 失去 耐心 。 谷 歌 和 亚 马 进 的 测试 显示 ， 页 面 加 载 速 度 降低 一 点 就 
会 导致 流量 大 幅 下 降 。 
但 是 ， 如 何 处 理 需 要 长 时 间 执 行 的 任务 呢 ， 比 如 上 传 文件 、 改 变 图 片 大 小 或 者 查询 数据 
库 ? 显然 无 法 用 同步 的 Web 客户 端 代码 解决 这 个 问题 ， 因 为 同步 就 必然 会 产生 等 待 。 
在 一 台电 脑 中 ， 如 果 你 想 尽 快 处 理 多 个 任务 ， 就 需要 让 它们 互相 独立 。 慢 任务 不 应 该 阻塞 
其 他 任务 。 
10.3 节 介 绍 了 如 何 用 多 进程 实现 单机 的 并 发 工作 。 如 果 你 需要 改变 图 片 的 大 小 ，Web 服务 
器 代码 可 以 调用 一 个 独立 、 专 用 的 图 片 处 理 进程 ， 可 以 异步 地 并 发 执行 。 这 样 可 以 通过 增 
加 处 理 进 程 来 横向 扩展 你 的 应 用 。 
问题 的 关键 是 如 何 让 这 些 进程 并 发 地 执行 。 任 何 共 享 控制 或 者 状态 管理 都 会 导致 瓶颈 。 另 
一 个 更 大 的 问题 是 如 何 处 理 错 误 ， 因 为 并 发 计算 比 常规 计算 更 难 ， 更 容易 出 现 错误 ， 因 此 
成 功 的 概率 更 低 。 
那么 到 底 应 该 如 何 处 理 这 些 复 杂 的 问题 呢 ? 我 们 来 看 一 种 优秀 的 多 任务 管理 方法 : 队列 。 
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11.1.1 队列 


队列 有 点 像 列表 : 从 一 头 添加 事物 ， 从 另 一 头 取出 事物 。 这 种 队列 被 称 为 FIFO (先进 
先 出 )。 


假设 你 正在 洗盘 子 ， 如 果 需 要 完成 全 部 工作 ， 需 要 洗 每 一 个 盘子 、 烘 干 并 放 好 。 你 有 很 多 
种 方法 来 完成 这 个 任务 。 或 许 你 会 先 洗 第 一 个 盘子 ， 供 干 并 把 它 放 好 ， 之 后 用 同样 的 方法 
来 处 理 第 二 个 盘子 ， 以 此 类 推 。 此 外 ， 你 也 可 以 执行 批量 操作 ， 先 洗 完 所 有 的 盘子 ， 再 烘 
干 所 有 的 盘子 ， 最 后 把 它们 都 放 好 。 这 样 做 需要 你 有 足够 大 的 水 池 和 烘 干 机 来 放置 每 一 步 
积累 的 所 有 盘子 。 这 些 都 是 同步 方法 一 一 一 个 工人 ， 一 次 做 一 件 事 。 


还 有 一 种 方法 是 再 找 一 个 或 者 两 个 帮手 。 如 果 你 是 洗盘 子 的 人 ， 可 以 把 洗 好 的 盘子 递 给 烘 
干 盘 子 的 人 ， 他 再 把 烘 干 的 盘子 递 给 放置 盘子 的 人 。 所 有 人 都 在 自己 的 位 置 工 作 ， 这 样 会 
比 你 一 个 人 要 快 很 多 。 


然而 ， 如 果 你 洗盘 子 的 速度 比 下 一 个 人 烘 干 的 速度 快 怎么 办 ?要 么 把 湿 盘 子 扔 在 地 上 ， 要 
么 把 它们 堆 在 你 和 下 一 个 人 之 间 ， 或 者 一 直 亲 着 直到 下 一 个 人 处 理 完 之 前 的 盘子 。 如 果 最 
后 一 个 人 比 第 二 个 人 还 慢 ， 那 第 二 个 人 要 么 把 盘子 扔 在 地 上 ， 要 么 把 它们 堆 在 两 个 人 之 
间 ， 要 么 就 朵 着 。 你 有 很 多 个 工人 ， 但 总 体 来 说 ， 任 务 仍然 是 同步 完成 的 ， 处 理 速度 和 最 
慢 的 工人 速度 是 一 样 的 。 
俗话 说 : 人 多 好 办 事 (我 总 觉得 这 人 句 话 来 自 阿 们 宗派 ， 因 为 它 总 会 让 我 想到 粮仓 建筑 )。 
增加 工人 可 以 更 快 地 搭建 粮仓 或 者 洗盘 子 ， 前 提 是 使 用 队列 。 

通常 来 说 ， 队 列 用 来 传递 消息 ， 消 息 可 以 是 任意 类 型 的 信息 。 在 本 例 中 ， 我 们 用 队列 来 管 
理 分 布 式 任务 ， 这 种 队列 也 称 为 工作 队列 或 者 任务 队列 。 水 池 中 的 每 个 盘子 都 会 发 给 一 个 
困 置 的 洗盘 子 的 人 ， 他 会 洗盘 子 并 把 盘子 传 给 第 一 个 朵 置 的 烘 干 盘 子 的 人 ， 他 会 烘 干 盘子 
并 把 盘子 传 给 第 一 个 闲置 的 放 盘 子 的 人 。 这 个 过 程 可 以 是 同步 的 (工人 等 着 处 理 盘 子 ， 处 
理 完 等 着 把 盘子 给 下 一 个 人 )， 也 可 以 是 异步 的 (盘子 堆 在 两 个 工人 中 间 )。 只 要 你 有 足够 
多 的 工人 并 且 他 们 都 能 认真 工作 ， 完 成 速度 会 很 快 。 















































































































































11.1.2 ”进程 


可 以 用 很 多 方法 来 实现 队列 。 对 单机 来 说 ， 标 准 库 中 的 multiprocessing 模块 (参见 10.3 节 ) 
有 一 个 Queue 函数 。 接 下 来 模拟 一 个 洗盘 子 的 人 和 多 个 烘 干 进程 (不 用 担心 ， 之 后 会 有 人 把 
这 些 盘 子 放 好 )， 我 们 使 用 一 个 中 间 队 列 dish_queue。 把 下 面 的 代码 保存 为 dishes.py: 


import multiprocessing as mp 














def washer(dishes, output): 
for dish in dishes: 
print('Washing', dish, 'dish') 
output.put(dish) 


def dryer(input): 
while True: 
dish = input.get() 
print('Drying', dish, 'dish') 
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input.task_done() 


dish queue = mp.JoinableQueue() 

dryer_proc = mp.Process(target=dryer, args=(dish_queue,)) 
dryer_proc.daemon = True 

dryer_proc.start() 


dishes = ['salad', 'bread', 'entree', 'dessert'] 
washer(dishes, dish queue) 
dish_queue.join() 


运行 这 个 新 程序 : 


$ python dishes.py 
Washing salad dish 
Washing bread dish 
Washing entree dish 
Washing dessert dish 
Drying salad dish 
Drying bread dish 
Drying entree dish 
Drying dessert dish 


这 个 队列 看 起 来 很 像 一 个 简单 的 Python 迭代 器 ,会 生成 一 系列 盘子 。 这 段 代 码 实 际 
上 会 启动 几 个 独立 的 进程 ， 洗 盘子 的 人 和 烘 干 盘子 的 人 会 用 它们 来 进行 通信 。 我 使 
用 JoinableQueue 和 最 后 的 join() 方 法 让 洗盘 子 的 人 知道 ， 所 有 的 盘子 都 已 经 烘 干 。 
multiprocessing 模块 还 有 其 他 类 型 的 队列 ， 更 多 实例 请 参考 文档 (https://docs.python. 








org/3/library/multiprocessing.html) 。 


11.1.3 ”线程 


线程 运行 在 进程 内 部 ， 可 以 访问 进程 的 所 有 内 容 ， 有 点 像 多 重 人 格 。muttiprocessing 模 
块 有 一 个 兄弟 模块 threading， 后 者 用 线程 来 代替 进程 (实际 上 ，multiprocessing 是 在 











threading 之 后 设计 出 来 的 ， 基 于 进程 来 完成 各 种 任务 )。 我 们 使 用 线程 来 重 写 一 遍 上 


下 的 











进程 示例 : 


import threading 





def do_this(what): 
whoami (what) 


def whoami(what): 
print("Thread %s says: %s" % (threading.current thread(), what)) 
if _ name _ == "main _": 
whoami("I'm the main program") 
for n in range(4): 
p = threading.Thread(target=do_this, 
args=("I'm function %s" % n,)) 
p.start() 


运行 后 得 到 以 下 输出 : 





Thread <_MainThread(MainThread, started 140735207346960)> says: I'm the main 
program 

Thread <Thread(Thread-1, started 4326629376)> says: I'm function 0 

Thread <Thread(Thread-2, started 4342157312)> says: I'm function 1 

Thread <Thread(Thread-3, started 4347412480)> says: I'm function 2 

Thread <Thread(Thread-4, started 4342157312)> says: I'm function 3 


可 以 使 用 线程 来 重 写 上 面 的 盘子 示例 : 


import threading, queue 
import time 


def washer(dishes, dish queue): 
for dish in dishes: 
print ("Washing", dish) 
time.sleep(5) 
dish_queue.put(dish) 


def dryer(dish_queue): 
while True: 
dish = dish_queue.get() 
print ("Drying", dish) 
time.sleep(10) 
dish_queue.task_done() 


dish queue = queue.Queue() 
for n in range(2): 
dryer_thread = threading.Thread(target=dryer, args=(dish_queue,)) 
dryer_thread.start() 


dishes = ['salad', 'bread', 'entree', 'desert'] 
washer(dishes, dish_ queue) 
dish_queue.join() 





multiprocessing 和 threading 的 区 别 之 一 就 是 threading 没有 terminate() 图 数 。 很 难 终 
止 一 个 正在 运行 的 线程 ， 因 为 这 可 能 会 引起 代码 和 时 空 连续 性 上 的 各 种 问题 


线程 可 能 会 很 危险 。 就 像 C 和 C++ 这 类 语言 中 的 手动 内 存 管理 一 样 ， 线 程 可 能 会 引起 很 
难 寻找 和 处 理 的 bug。 要 使 用 线程 ， 程 序 中 的 所 有 代码 一 一 以 及 程序 使 用 的 所 有 外 0 
的 代码 一 一 必须 是 线程 安全 的 。 在 之 前 的 示例 代码 中 ， 线 程 之 间 设 有 共享 任何 全 局 变 
因此 可 以 在 没有 副作用 的 情况 下 独立 运行 。 


假设 你 是 一 个 幽灵 屋 中 的 超自然 现象 调查 员 ， 幽 灵 在 大 厅 中 漫游 ， 但 是 它们 互相 之 间 并 
不 能 感知 到 对 方 。 此 外 ， 幽 灵 可 以 在 任意 时 间 浏 览 、 添 加、 删除 或 者 移动 房间 中 的 任意 
物品 。 

你 一 边 看 着 令 人 惊讶 的 仪表 读数 ， 一 边 穿 过 整个 房间 。 罕 然 ， 你 发 现 几 秒 钟 之 前 刚 看 过 的 
烛台 不 见 了 。 


房间 中 的 物品 就 像 程 序 中 的 变量 ， 幽 灵 是 进程 (房间 ) 中 的 线程 。 如 果 项 灵 只 会 浏览 房 
间 中 的 物品 ， 就 没有 任何 问题 。 就 像 线 程 只 会 读 取 常量 或 者 变量 中 的 值 ， 但 是 不 会 修改 
它们 。 
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然而 ， 有 些 看 不 见 的 东西 会 抓 住 你 的 手电 简 ， 往 你 的 脖子 上 吹 冷 风 ， 在 大 理 石 楼 梯 上 一 步 
一 步 地 走 ， 或 者 点 燃 壁 炉 。 真 正 精明 的 幽灵 甚至 会 在 你 看 不 到 的 房间 中 捣乱 。 

尽管 你 有 很 高 端的 设备 ， 要 找 出 是 谁 在 什么 时 候 做 了 什么 改动 仍然 非常 困难 。 

如 果 使 用 进程 来 代替 线程 ， 那 就 像 有 很 多 个 房子 但 是 每 个 房子 里 只 有 一 个 〈 活 ) 人 。 如 果 
你 把 白兰 地 放 在 壁炉 前 ， 一 个 小 时 后 它 还 会 在 那儿 。 或 许 会 蒸发 一 些 ， 但 是 位 置 不 变 。 
没有 全 局 变量 时 ， 线 程 是 非常 有 用 并 且 安 全 的 。 通 常 来 说 ， 如 果 需 要 等 待 IO 操作 完成 ， 
那么 使 用 线程 可 以 节省 很 多 时 间 。 在 这 种 情况 下 ， 线 程 不 会 因为 数据 打架 ， 因 为 每 个 线程 
使 用 的 是 完全 独立 的 变量 。 

但 是 线程 有 时 候 确实 需要 修改 全 局 变量 。 实 际 上 ， 使 用 多 线程 的 一 个 常见 目的 就 是 把 需要 
处 理 的 数据 进行 划分 ， 这 就 不 可 避免 地 需要 修改 数据 。 

常见 的 安全 共享 数据 的 方法 是 让 线程 在 修改 变量 之 前 加 软件 锁 ， 这 样 在 进行 修改 时 其 他 
线程 都 会 等 待 。 这 就 像 在 有 幽灵 的 房子 中 有 一 个 抓 幽 灵 敢 死 队 帮 你 看 门 。 需 要 注意 的 是 ， 
千 万 别 忘 了 解锁 。 此 外 ， 锁 可 以 戏 套 ， 就 像 你 还 有 另 一 个 抓 幽 灵 表 死 队 来 看 同一 个 房间 或 
者 同一 个 房子 。 锁 的 用 法 非常 传统 但 是 要 想 用 对 非常 困难 。 


在 Python 中 ， 线 程 不 能 加 速 受 CPU 限制 的 任务 ， 原 因 是 标准 Python 系统 中 
使 用 了 全 局 解释 器 锁 (GIL)。GIL 的 作用 是 避免 Python 解释 器 中 的 线程 问 
题 ， 但 是 实际 上 会 让 多 线程 程序 运行 速度 比 对 应 的 单线 程 版 本 甚至 是 多 进程 
版 本 更 慢 。 


总 而 言 之 和 对 于 Python ， 建议 如 下 : 


。 使 用 线程 来 解决 VO 限制 问题 ， 
。 使 用 进程 、 网 络 或 者 事件 (下 一 市 会 介绍 ) 来 处 理 CPU 限制 问题 。 


11.1.4 绿色 线程 和 gevent 

如 你 所 见 ， 开 发 者 通常 会 把 程序 中 运行 速度 慢 的 部 分 划分 为 多 个 线程 或 者 进程 从 而 加 快速 
度 。Apache Web 服务 器 就 是 一 个 典型 的 例子 。 

另 一 种 方法 是 基于 事件 编程 。 一 个 基于 事件 的 程序 会 运行 一 个 核心 事件 循环 ， 分 配 所 有 任 
务 ， 然 后 重复 这 个 循环 。nginx Web 服务 器 就 是 基于 事件 的 设计 ， 通 常 来 说 比 Apache 快 。 
gevent 就 是 一 个 基于 事件 的 很 棒 的 库 : 你 只 需要 编写 普通 的 代码 ，gevent 会 神奇 地 把 它们 
转换 成 协 程 。 协 程 就 像 可 以 互相 通信 的 生成 器 ， 它 们 会 记录 自己 的 位 置 。gevent 可 以 修改 
许多 Python 的 标准 对 象 ， 比 如 socket， 从 而 使 用 它 自 己 的 机 制 来 代替 阻塞。 协 程 无 法 处 
里 C 写成 的 Python 扩展 代码 ， 比 如 一 些 数 据 库 驱 动 程序 。 



















































































在 编写 本 书 时 ，gevent 还 不 能 完全 兼容 Python 3， 因 此 下 面 的 示例 代码 使 用 
的 是 Python 2 的 工具 ptp2 和 python2。 














234 | 第 11 章 


可 以 使 用 Python 2 版 的 ptp 来 安装 gevent: 
$ pip2 install gevent 


下 面 是 gevent 官网 示例 代码 (http://www.gevent.org/) 的 一 个 变 体 。11.2.7 节 会 介绍 
socket 模块 的 gethostbyname() 国 数 。 这 个 国 数 是 同步 的 ， 所 以 当 它 在 全 世界 的 名 称 服务 
器 中 寻找 地 址 时 ， 你 必须 等 待 ( 可 能 要 好 几 秒 )。 但 是 ， 你 可 以 使 用 gevent 版 本 的 代码 来 
同时 查询 多 个 网 站 的 地 址 。 把 下 面 的 代码 保存 为 gevent_test.py: 


import gevent 

from gevent import socket 

hosts = ['www.crappytaxidermy.com', 'www.walterpottertaxidermy.com', 
'www.antique-taxidermy.com'] 

jobs = [gevent.spawn(gevent.socket.gethostbyname, host) for host in hosts] 

gevent.joinall(jobs, timeout=5) 

for job in jobs: 
print(job.value) 


这 段 代 码 中 有 一 个 只 有 一 行 的 for 循环 。 每 个 主机 名 都 会 被 提交 到 一 个 gethostbyname() 
调用 中 ， 但 是 这 些 调用 可 以 异步 执行 ， 因 为 使 用 的 是 gevent 版 本 的 gethostbyname()。 
使 用 下 面 的 命令 来 用 Python 2 运行 gevent_test.py: 


$ python2 gevent_test.py 
66.6.44.4 

74.125.142.121 
78.136.12.50 




















gevent.spawn() 会 为 每 个 gevent.socket.gethostbynome(urL) 创建 一 个 绿色 线程 (也 叫 微 
线程 )。 

绿色 线程 和 普通 线程 的 区 别 是 前 者 不 会 阻塞 。 如 果 遇 到 会 阻塞 普通 线程 的 情况 ，gevent 会 
把 控制 权 切 换 到 另 一 个 绿色 线程 。 

gevent.joinall() 方法 会 等 待 所 有 的 任务 完成 。 最 后 ， 我 们 会 输出 获得 的 所 有 全 地 址 。 
除了 使 用 gevent 版 本 的 socket 之 外 ， 你 也 可 以 使 用 猴子 补丁 (monkey-patching) 函数 。 
这 个 函数 会 修改 标准 模块 ， 比 如 socket， 直 接 让 它们 使 用 绿色 线程 而 不 是 调用 gevent 版 
本 。 如 果 想 在 整个 程序 中 应 用 gevent， 这 种 方法 非常 有 用 ， 即 使 那些 你 无 法 直接 接触 到 的 
代码 也 会 被 改变 。 

在 程序 的 开头 ， 添 加 下 面 的 代码 : 


from gevent import monkey 
monkey.patch_socket() 


这 会 把 程序 中 所 有 的 普通 socket 都 修改 成 gevent 版 本 ， 即 使 是 标准 库 也 不 例外 。 再 提醒 
一 次 ， 这 个 改动 只 对 Python 代码 有 效 ， 对 C 写成 的 库 无 效 。 
另 一 个 国 数 会 给 更 多 的 标准 库 模 块 打上 补丁 : 


from gevent import monkey 
monkey.patch_all() 
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在 程序 开头 加 上 这 段 代 码 可 以 让 你 的 程序 充分 利用 gevent 带 来 的 速度 提升 。 
把 下 面 的 程序 保存 为 gevent_monkey.py: 





import gevent 

from gevent import monkey; monkey.patch_all() 

import socket 

hosts = ['www.crappytaxidermy.com', 'www.walterpottertaxidermy.com', 
'www.antique-taxidermy.com'] 

jobs = [gevent.spawn(socket.gethostbyname, host) for host in hosts] 

gevent.joinall(jobs, timeout=5) 

for job in jobs: 
print(job.value) 


再 使 用 Python 2 运行 程序 : 





$ python2 gevent_monkey.py 
66.6.44.4 

74.125.192.121 
78.136.12.50 





使 用 gevent 还 有 一 个 潜在 的 危险 。 对 于 基于 事件 的 系统 来 说 ， 执 行 的 每 段 代 码 都 应 该 尽 可 
能 快 。 尽 管 不 会 阻塞 ,执行 复杂 任务 的 代码 还 是 会 很 慢 。 
猴子 补丁 的 理念 对 于 很 多 人 来 说 并 不 容易 接受 。 但 是 ， 很 多 大 型 网 站 (比如 Pinterest) 都 
在 使 用 gevent， 对 网 站 来 说 有 明显 的 加 速 作用 。 就 像 一 瓶 外 表 精 美的 药丸 一 样 ， 要 用 正确 
的 方式 使 用 gevent。 


另外 两 个 流行 的 事件 驱动 框架 是 tornado (http://www.tornadoweb.org/en/ 
stable/) 和 gunicorn (http://gunicorn.org/)。 它 们 都 使 用 了 底层 事件 处 理 和 高 


11. 





速 Web 服务 器 。 如 果 你 想 使 用 传统 的 Web 服务 器 (比如 Apache 
速 网 站 ， 这 两 个 框架 非常 值得 一 看 。 


1.5 twisted 





) 来 构建 高 





twisted (http://twistedmatrix.com/trac/) 是 一 个 异步 事件 驱动 的 网 络 框架 。 你 可 以 把 函数 关 
联 到 事件 (比如 数据 接收 或 者 连接 关闭 ) 上 ， 当 事件 发 生 时 这 些 函 数 会 被 调用 。 这 种 设计 
被 称 为 回调 (callback)， 如 果 你 以 前 用 过 JavaScript， 那 一 定 不 会 陌生 。 如 果 是 第 一 次 见 到 
回调 ， 可 能 会 觉得 它 有 点 过 时 。 对 于 有 些 开发 者 来 说 ， 基 于 回调 的 代码 在 应 用 规模 变 大 之 
后 会 很 难 维护 。 


和 geven 























使 用 下 面 的 命令 来 安装 twisted: 





$ pip2 instaLL twisted 





twisted 很 大 ， 支 持 很 多 基于 TCP 和 UDP 的 互联 网 协议 。 出 于 教学 目的 ， 
个 简单 的 敲 门 服务 器 和 客户 端 ， 由 twisted 示例 (http://twistedmatrix.com/documents/current/ 
core/examples/) 修改 而 来 。 首 先 来 看 服务 器 ， 把 代码 保存 到 knock_server.py (注意 Python 
2 中 print() 的 语法 ) : 


t 一 样 ，twisted 还 没有 兼容 Python 3。 本 会 使 用 Python 2 的 安装 器 和 解释 器 。 


我 们 会 展示 一 
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from twisted.internet import protocol, reactor 


class Knock(protocol.Protocol): 
def dataReceived(self, data): 
print 'Client:', data 
if data.startswith("Knock knock"): 
response = "Who's there?" 
else: 
response = data + " who?" 
print 'Server:', response 
self.transport.write(response) 


class KnockFactory(protocol.Factory): 
def buildPprotocol(self, addr): 
return Knock() 


reactor. listenTCP(8000, KnockFactory()) 
reactor .run() 


现在 看 看 服务 器 的 忠实 伙伴 ，knock_client.py: 


from twisted.internet import reactor, protocol 





class KnockClient(protocol.Protocol): 
def connectionMade(self): 
self.transport.write("Knock knock") 


def dataReceived(self, data): 
if data.startswith("Who's there?"): 
response = "Disappearing client" 
self.transport.write(response) 
else: 
self.transport. loseConnection() 
reactor. stop() 


class KnockFactory(protocol.ClientFactory): 
protocol = KnockClient 


def main(): 
f = KnockFactory() 
reactor .connectTCP("localhost", 8000, f) 
reactor .run() 


if _ name == '__ main _': 
main() 


先 启动 服务 器 : 

$ python2 knock_server.py 
然后 启动 客户 端 : 

$ python2 knock_client.py 


服务 器 和 客户 端 会 交换 信息 ， 服 务 器 打印 以 下 对 话 内 容 : 
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CLient: Knock knock 

Server: Who's there? 

Client: Disappearing client 
Server: Disappearing client who? 


之 后 ， 我 们 的 魔术 师 客户 端 结 束 了 ， 只 留 服务 器 还 在 不 断 等 待 。 
如 果 想 了 解 更 多 关于 twisted 的 内 容 ， 可 以 试 试 官方 文档 中 的 其 他 示例 。 


11.1.6 asyncio 


最 近 ， 吉 多 : 范 : 罗 苏 姆 (还 记得 他 是 谁 吗 ? ) 参与 处 理 Python 的 并 发 问题 。 许 多 包 有 自 
己 的 事件 循环 ， 每 种 事件 循环 都 想 成 为 标准 。 他 该 如 何 调停 回调 、 绿 色 线 程 以 及 其 他 并 发 
方法 呢 ? 经 过 许多 讨论 和 交流 ， 他 发 布 了 异步 IO 支持 重新 启动 :“asyncio” 模 块 (http:// 
legacy.python.org/dev/peps/pep-3156/)， 代 号 Tulip。asyncio 模块 在 Python 3.4 中 首次 出 现 。 
目前 ， 它 提供 了 一 种 通用 的 事件 循环 ， 可 以 兼容 twisted、gevent 和 其 他 异步 方法 。 目 标 
是 提供 一 种 标准 、 简 洁 、 高 性 能 的 异步 API。 期 待 它 在 未 来 的 Python 发 布 版 中 不 断 发 展 。 











下 






































11.1.7 Redis 


我 们 之 前 的 洗盘 子 示 例 代码 ， 无 论 使 用 的 是 进程 还 是 线程 ， 都 运行 在 一 台 机 器 上 。 下 面 我 
们 使 用 另 一 种 方法 来 实现 队列 ， 让 它 可 以 既 支 持 单机 又 支持 网 络 。 有 时 候 用 了 进程 和 线 
程 ， 单 机 仍然 无 法 满足 需求 。 本 章 的 目的 就 是 帮助 你 从 一 个 盒子 (单机) 过渡 到 多 个 并 发 
的 盒子 。 


要 运行 本 章 的 示例 ， 需 要 安装 Redis 服务 器 和 它 的 Python 模块 。 安 装 方法 参见 8.5.3 节 。 
第 8 章 中 ，Redis 的 角色 是 数据 库 ， 而 这 里 指 的 是 它 的 并 发 特性 。 


可 以 使 用 Redis 列表 来 快速 创建 一 个 队列 。Redis 服务 器 部 署 在 一 台 机 器 上 ， 客 户 端 可 以 部 
署 在 同一 台 机 器 上 也 可 以 部 署 在 不 同 机 器 上 ， 通 过 网 络 通信 。 无 论 是 哪 种 情况 ， 客 户 端 都 
是 通过 使 用 TCP 和 服务 器 通信 ， 因 此 它们 是 网 络 化 的 。 一 个 或 多 个 生产 者 客户 端 向 列表 的 
一 端 压 和 人 消息， 一 个 或 多 个 工人 客户 端 通过 阻塞 弹出 操作 从 列表 中 获得 需要 洗 的 盘子 。 如 
果 列 表 为 空 ， 它 们 就 会 采 置 。 如 果 有 一 条 消息 ， 第 一 个 空 亲 工人 就 会 去 处 理 。 


和 之 前 的 基于 进程 和 线程 的 示例 一 样 ，redis_washer.py 会 生成 一 个 盘子 序列 : 


import redis 
conn = redis.Redis() 
print('Washer is starting') 
dishes = ['salad', 'bread', 'entree', 'dessert'] 
for dish in dishes: 
msg = dish.encode('utf-8') 
conn.rpush('dishes', msg) 
print('Washed' , num) 
conn.rpush('dishes', 'quit') 
print('Washer is done') 


循环 会 生成 四 个 包含 盘子 名 称 的 消息 ， 最 后 一 条 消息 是 “退出 ”(quit)。 程 序 会 把 所 有 消 
息 都 添加 到 Redis 服务 器 上 的 dishes 列表 中 ， 就 像 添 加 到 Python 列表 一 样 。 
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当 第 一 个 盘子 就 绪 之 后 ，redis_dryer.py 就 开始 工作 了 : 


import redis 
conn = redis.Redis() 
print('Dryer is starting') 
while True: 
msg = conn.blpop('dishes') 
if not msg: 
break 
val = msg[1].decode('utf-8') 
if val == 'quit': 
break 
print('Dried', val) 
print('Dishes are dried') 
这 段 代码 会 等 待 第 一 个 令 牌 是 dishes 的 消息 ， 并 打印 出 烘 干 的 盘子 。 如 果 遇 到 “退出 ” 消 
息 就 终止 循环 。 
启动 烘 干 工人 ， 然 后 启动 清洗 工人 。 在 命令 结尾 加 上 8， 让 第 一 个 程序 在 后 台 运 行 ， 它 会 
一 直 运 行 下 去 ， 但 是 不 会 监听 键盘 。 尽 管 第 二 行 的 输出 稍 有 不 同 ， 但 是 这 个 技巧 在 Linux、 
OS X 和 Windows 上 都 有 效 。 在 本 例 中 (OS X) ， 第 二 行 输出 的 是 和 后 台 烘 干 进程 相关 的 
信息 。 接 着 ,我 们 正常 (在 前 台 ) 启动 清洗 进程 。 你 可 以 看 到 两 个 进程 混在 一 起 的 输出 : 
$ python redis_dryer.py & 
[2] 81691 
Dryer is starting 
$ python redis_washer.py 
Washer is starting 
Washed salad 
Dried salad 
Washed bread 
Dried bread 
Washed entree 
Dried entree 
Washed dessert 
Washer is done 
Dried dessert 


Dishes are dried 
[2]+ Done python redis_ dryer.py 


只 要 盘子 ID 从 清洗 进程 到 达 Redis， 我 们 勤劳 的 烘 干 进程 就 会 取出 它们 。 每 个 盘子 ID 都 
一 个 数字 ， 除 了 最 后 的 哨兵 值 ， 它 是 字符 串 'quit' 。 当 烘 干 进程 读 取 到 盘子 ID quit 就 

会 退出 ， 后 台 进 程 的 信息 会 打印 到 终端 (具体 内 容 在 不 同系 统 中 同样 有 差别 )。 你 可 以 使 

用 一 个 哨兵 (或 者 说 一 个 非法 值 ) 在 数据 流 中 表示 一 些 特殊 的 意义 一 一 本 例 的 意义 是 完 

毕 。 如 果 不 这 样 做 ， 需 要 添加 一 些 编程 逻辑 ， 如 下 所 示 : 

。 提前 设 定 好 盘子 的 最 大 值 ， 这 也 是 一 种 哨兵 ; 

。 进行 特殊 的 带 外 (不 在 数据 流 中 ) 进程 间 通 信 ， 

。 一 定时 间 没 有 新 数据 就 退出 。 

再 进行 一 些 最 终 的 修改 : 

。 创建 多 个 dryer 进程 
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。 除了 等 待 哨兵 ， 给 每 个 烘 干 进程 添加 一 个 超时 时 间 。 
新 的 redis_dryer2.py: 


def dryer(): 
import redis 
import os 
import time 
conn = redis.Redis() 
pid = os.getpid() 
timeout = 20 
print('Dryer process %s is starting' % pid) 
while True: 
msg = conn.blpop('dishes', timeout) 
if not msg: 
break 
val = msg[1].decode('utf-8') 
if val == 'quit': 
break 
print('%s: dried %s' % (pid, val)) 
time.sleep(0.1) 
print('Dryer process %s is done' % pid) 





import multiprocessing 

DRYERS=3 

for num in range(DRYERS): 
p = multiprocessing.Process(target=dryer) 
p.start() 


在 后 台 启 动 烘 干 进程 ， 接 着 在 前 全 启动 清洗 进程 : 


$ python redis_ dryer2.py & 
Dryer process 44447 is starting 
Dryer process 44448 is starting 
Dryer process 44446 is starting 
$ python redis_washer.py 

Washer is starting 

Washed salad 

44447: dried salad 

Washed bread 

44448: dried bread 

Washed entree 

44446: dried entree 

Washed dessert 

Washer is done 

44447: dried dessert 


一 个 烘 干 进程 读 取 quit ID 并 退出 : 


Dryer process 44448 is done 




















下 











20 秒 后 ， 其 他 烘 干 进程 的 blpop 调用 返回 None， 表 示 超 时 ， 所 以 它们 打印 出 最 后 一 名 话 并 





退出 : 


Dryer process 44447 is done 
Dryer process 44446 is done 


下 











最 后 一 个 烘 干 子 进程 退出 后 ， 主 烘 干 程序 退出 : 


[1]+ Done python redis_dryer2.py 


11.1.8 队列 之 上 


加 入 的 功能 越 多 ， 流 水 线 就 越 有 可 能 出 问题 。 如 果 需 要 给 一 个 宴会 洗盘 子 ， 工 人 数量 是 否 
足够 呢 ? 如 果 烘 干 工人 喝 多 了 怎么 办 ? 如 果 水 槽 堵 了 怎么 办 ? 好 担心 啊 ! 
如 何 应 对 这 一 切 呢 ? 幸运 的 是 ， 有 三 种 技术 可 供 你 使 用 。 
。 触发 并 忘记 
只 传递 内 容 ， 并 不 关心 结果 ， 即 使 没 人 处 理 。 这 就 是 “把 盘子 扔 地 上 ”方法 。 
。 请 求 一 响应 
对 于 每 一 个 盘子 ， 流 水 线 上 的 清洗 工人 需要 收 到 烘 干 工人 的 确认 ， 烘 干 工人 需要 收 到 放 
置 工人 的 确认 。 
。 背 压 或 者 节 流 
适用 于 上 游 工 人 速度 比 下 游 工 人 快 的 情况 。 
在 真实 系统 中 ， 你 必须 保证 工人 的 速度 能 够 满足 需求 ， 否 则 就 会 听 到 盘子 摔 碎 的 声音 。 你 
可 以 把 新 任务 添加 到 一 个 等 待 列表 中 ， 一 些 工 人 进程 会 从 中 弹出 最 后 一 个 消息 并 把 它 添 加 
到 工作 列表 中 。 消 息 处 理 完成 后 会 从 工作 列表 中 移 除 并 被 添加 到 完成 列表 。 这 样 就 可 以 知 
道 哪些 任务 失败 或 者 占用 了 太 长 的 时 间 。 你 可 以 自己 使 用 Redis 来 完成 这 些 功能 ， 或 者 使 
用 其 他 人 已 经 写 好 并 通过 测试 的 系统 。 以 下 有 一 些 基于 Python 的 队列 包 添 加 了 这 种 额外 的 
控制 层 (有 些 使 用 的 是 Redis) 。 
。 celery (http://www.celeryproject.org/) 


这 个 包 非 常 值得 一 看 。 它 可 以 同步 或 者 异步 执行 分 布 式 任务 ,使 用 了 我 们 之 前 介绍 的 方 


法 : multiprocessing、gevent 等 。 

























































































。 thoonk (https://github.com/andyet/thoonk.py) 
这 个 包 基 于 Redis 构建 ， 可 以 创建 任务 队列 并 实现 发 布 -订阅 (下 一 节 会 介绍 )。 


。 rq (http://python-rq.org/) 
这 是 一 个 处 理 任 务 队列 的 Python 库 ， 同 样 基 于 Redis。 


。 Queues (http://queues.io/) 
这 个 网 站 介绍 了 队列 化 软件 ， 其 中 有 些 是 基于 Python 开发 的 。 


11.2 网络 


在 讨论 并 发 时 ， 主 要 讨论 的 是 时 间 : 单机 解决 方案 (进程 、 线 程 和 绿色 线程 ) 。 还 简单 介 
绍 了 网 络 化 的 解决 方案 (Redis、ZeroMQ ) 。 现 在 ， 我 们 来 单独 介绍 一 下 网 络 化 ， 也 就 是 跨 
空间 的 分 布 式 计算 。 
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11.2.1 模式 

你 可 以 使 用 一 些 基础 的 模式 来 搭建 网 络 化 应 用 。 
最 常见 的 模式 是 请 求 - 响应 ， 也 被 称 为 客户 痛 一 服务 器 。 这 个 模式 是 同步 的 : 用 户 会 一 直 
等 待 服务 器 的 响应 。 在 本 书 中 ， 你 已 经 看 过 了 很 多 “请 求 - 响应 ”的 示例 。 你 的 Web 浏 
览 器 也 是 一 个 客户 端 ， 向 Web 服务 器 发 起 一 个 HTTP 请 求 并 等 待 响应 。 

另 一 种 常见 的 模式 是 推送 或 者 扇 出 : 你 把 数据 发 送 到 一 个 进程 地 中 ， 空 闲 的 工作 进程 会 进 
行 处 理 。 一 个 典型 的 例子 是 有 负载 均衡 的 Web 服务 器 。 

和 推送 相反 的 是 拉 取 或 者 扇 入 : 你 从 一 个 或 多 个 源 接收 数据 。 一 个 典型 的 例子 是 记录 器 ， 
它 会 从 多 个 进程 接收 文本 信息 并 把 它们 写 入 一 个 日 志文 件 。 

还 有 一 个 和 收音 机 或 者 电视 广播 很 像 的 模式 : 发 布 - 订阅 。 这 个 模式 中 ， 会 有 发 送 数据 的 
发 布 者 。 在 简单 的 发 布 - 订 阅 系统 中 ， 所 有 的 订阅 者 都 会 收 到 一 份 副本 。 更 常见 的 情况 
是 ， 订 阅 者 只 关心 特定 类 型 的 数据 (通常 被 称 为 话题 )， 发 布 者 只 会 发 送 这 些 数据 。 因 此 ， 
和 推送 模式 不 同 ， 可 能 会 有 超过 一 个 订阅 者 收 到 数据 。 如 果 一 个 话题 没有 订阅 者 ， 相 关 的 
数据 会 被 忽略 。 


11.2.2 发布 -订阅 模型 

发 布 - 订 阅 并 不 是 队列 ， 而 是 广播 。 一 个 或 多 个 进程 发 布 信息 ， 每 个 订阅 进程 声明 自己 感 
兴趣 的 消息 类 型 ， 然 后 每 个 消息 都 会 被 复制 一 份 发 给 感 兴趣 的 订阅 进程 。 因 此 ， 一 个 消息 
可 能 只 被 处 理 一 次 ， 也 可 能 多 于 一 次 ， 还 可 能 完全 不 被 处 理 。 每 个 发 布 者 只 负责 广播 ， 并 
不 知道 谁 (如 果 有 人 的 话 ) 在 监听 。 

1. Redis 

你 可 以 使 用 Redis 来 快速 搭建 一 个 发 布 一 订阅 系统 。 发 布 者 会 发 出 包含 话题 和 值 的 消息 ， 
订阅 者 会 声明 它们 对 什么 话题 感 兴趣 。 

下 面 是 发 布 者 ，redis_pub.py: 


import redis 
import random 































































































conn = redis.Redis() 
cats = ['siamese', 'persian', 'maine coon', 'norwegian forest'] 
hats = ['stovepipe', 'bowler', 'tam-o-shanter', 'fedora'] 
for msg in range(10): 
cat = random.choice(cats) 
hat = random.choice(hats) 
print('Publish: %s wears a %s' % (cat, hat)) 
conn.publish(cat, hat) 


每 个 话题 是 猫 的 一 个 品种 ， 每 个 消息 的 值 是 帽子 的 一 种 类 型 。 
下 面 是 一 个 订阅 者 ，redis_sub.py: 














import redis 
conn = redis.Redis() 
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topics = ['maine coon', 'persian'] 
sub = conn.pubsub() 
sub.subscribe(topics) 
for msg in sub.listen(): 
if msg[ type'] == "message ' : 

cat = msg['channel'] 

hat = msg[ 'data'] 

print('Subscribe: %s wears a %s' % (cat, hat)) 


ee maine coon' 或 者 'persian' 的 消息 。listen() 方法 会 返回 一 
字典 ， 如 果 它 的 类 型 是 'message' ， 那 就 是 由 发 布 者 发 出 的 消息 。'channel' 键 是 话题 
'data' 键 包 含 消息 的 值 (帽子 )。 


如 果 你 先 启 动 发 布 者 ， 这 时 没有 订阅 者 ， 就 像 把 一 个 哑 剧 演员 扔 到 树林 里 一 样 (他 会 发 出 
声音 吗 ? ) ， 因 此 要 先 启 动 订阅 者 : 


$ python redis_sub.py 
接着 启动 发 布 者 ， 它 会 发 送 10 个 消息 JE 然后 退出 : 


$ python redis_pub.py 

Publish: maine coon wears a stovepipe 

Publish: norwegian forest wears a stovepipe 
Publish: norwegian forest wears a tam-o-shanter 
Publish: maine coon wears a bowler 

Publish: siamese wears a stovepipe 

Publish: norwegian forest wears a tam-o-shanter 
Publish: maine coon wears a bowler 

Publish: persian wears a bowler 

Publish: norwegian forest wears a bowler 
Publish: maine coon wears a stovepipe 


订阅 者 只 关心 两 类 猫 : 


$ python redis_sub.py 

Subscribe: maine coon wears a stovepipe 
Subscribe: maine coon wears a bowler 
Subscribe: maine coon wears a bowler 
Subscribe: persian wears a bowler 
Subscribe: maine coon wears a stovepipe 


ed i he ng 因此 它 会 一 直 等 竺 消息。 如果 重 新 启动 一 个 发 布 者 ， 那 订阅 者 
续 抓 取消 息 并 省 出 。 


可 以 使 用 任意 数量 的 订阅 者 (和 发 布 者 )。 如 果 一 个 消息 没有 订阅 者 ， 那 它 会 从 Redis 服务 
器 中 消失 。 然 而 ， 如 果 有 订阅 者 ， 消 息 会 停留 在 服务 器 中 ， 直 到 所 有 的 订阅 者 都 获取 完毕 。 


2. ZeroMQ 
还 记得 之 前 介绍 过 ZeroMQ 的 PUB 和 SUB 套 接 字 吗 ? 终于 轮 到 它们 大 显 身 手 了 。ZeroMQ 


没有 核心 服务 器 ， 因 此 每 个 发 布 者 都 会 发 送 给 所 有 订阅 者 。 我 们 来 使 用 ZeroMQ 重 写 一 下 
上 面 的 猫 一 帽子 示例 。 发 布 者 为 zmq_pub.py， 内 容 如 下 所 示 : 



































besl 
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import zmq 
import random 
import time 
host = '*" 
port = 6789 
ctx = zmq.Context() 
pub = ctx.socket(zmq.PUB) 
pub.bind('tcp://%s:%s' % (host, port)) 
cats = ['siamese', 'persian', 'maine coon', 'norwegian forest'] 
hats = ['stovepipe', 'bowler', 'tam-o-shanter', 'fedora'] 
time.sleep(1) 
for msg in range(10): 
cat = random.choice(cats) 
cat_bytes = cat.encode('utf-8') 
hat = random.choice(hats) 
hat_bytes = hat.encode('utf-8') 
print('Publish: %s wears a %s' % (cat, hat)) 
pub.send_multipart([cat_bytes, hat_bytes]) 


注意 代码 是 如 何 用 UTF-8 来 编码 话题 和 值 字 符 串 的 。 
下 面 是 订阅 者 zmq_sub.py: 














import zmq 
host = '127.0.0.1" 
port = 6789 
ctx = zmq.Context() 
sub = ctx.socket(zmq.SUB) 
sub.connect('tcp://%s:%s' % (host, port)) 
topics = ['maine coon', 'persian'] 
for topic in topics: 
sub.setsockopt(zmq.SUBSCRIBE, topic.encode('utf-8')) 
while True: 
cat_bytes, hat_bytes = sub.recv_multipart() 
cat = cat_bytes.decode('utf-8') 
hat = hat_bytes.decode( 'utf-8') 
print('Subscribe: %s wears a %s' % (cat, hat)) 


在 这 段 代码 中 ， 我 们 订阅 了 两 个 不 同 的 比特 值 ， 用 UTF-8 编码 的 topics 中 的 两 个 字符 串 。 


这 看 起 来 有 点 过 时 ， 但 是 如 果 你 想 订 阅 所 有 话题 ， 需 要 订阅 空 比特 字符 串 
b''， 否 则 什么 消息 都 得 不 到 。 


注意 ， 我 们 在 发 布 者 中 调用 了 send_multipart()， 在 订阅 者 中 调用 了 recv_multipart()。 
这 样 就 可 以 收 到 消息 的 多 个 部 分 并 使 用 第 一 部 分 来 判断 话题 是 否 匹 配 。 也 可 以 选择 使 用 一 
个 字符 串 或 者 比特 字符 串 来 发 送 话 题 和 消息 值 ， 但 是 把 猫 和 帽子 分 开发 送 会 更 加 清晰 。 
启动 订阅 者 : 

$ python zmq_sub.py 


启动 发 布 者 ， 它 会 立刻 发 送 10 条 消息 并 退出 : 














四 
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$ python zmq_pub.py 

Publish: norwegian forest wears a stovepipe 
Publish: siamese wears a bowler 

Publish: persian wears a stovepipe 
Publish: norwegian forest wears a fedora 
Publish: maine coon wears a tam-o-shanter 
Publish: maine coon wears a stovepipe 
Publish: persian wears a stovepipe 
Publish: norwegian forest wears a fedora 
Publish: norwegian forest wears a bowler 
Publish: maine coon wears a bowler 


订阅 者 打印 出 它 想 要 的 内 容 : 


Subscribe: persian wears a stovepipe 
Subscribe: maine coon wears a tam-o-shanter 
Subscribe: maine coon wears a stovepipe 
Subscribe: persian wears a stovepipe 
Subscribe: maine coon wears a bowler 


3. 其 他 发 布 -订阅 工具 

你 可 能 会 对 Python 的 其 他 发 布 -订阅 工具 感 兴趣 。 

。 RabbitMQ 
这 是 一 个 非常 著名 的 消息 发 送 器 。pika 是 它 的 Python API。 详 情 参见 pika 文档 (http:// 
pika.readthedocs.org/) 和 发 布 - 订 阅 教程 (http://www.rabbitmq.com/tutorials/tutorial- 
three-python.html) 。 








。 pypi.python.org 
在 右上 角 的 搜索 框 内 输入 pubsub 来 寻找 类 似 pypubsub (http://pubsub.sourceforge.net/) 
这 样 的 Python 包 。 

。 pubsubhubbub 
这 个 读 起 来 非常 顺口 的 协议 (https://code.google.com/p/pubsubhubbub/) 允许 订阅 者 注册 
对 应 发 布 者 的 回调 函数 。 


11.2.3 TCP/IP 


我 们 一 直 处 在 网 络 的 世界 中 ， 理 所 当然 地 认为 底层 的 一 切 都 可 以 正常 工作 。 现 在 ， 我 们 来 
真正 地 深入 底层 ， 看 看 那些 维持 系统 运转 的 东西 到 底 是 什么 样 。 


因特网 是 基于 规则 的 ， 这 些 规则 定义 了 如 何 创 建 连接 、 交 换 数 据 、 终 止 连接 、 处 理 超时 
等 。 这 些 规 则 被 称 为 协议 ， 它 们 分 布 在 不 同 的 层 中 。 分 层 的 目的 是 兼容 多 种 实现 方法 。 你 
可 以 在 某 一 层 中 做 任何 想 做 的 事 ， 只 要 遵循 上 一 层 和 下 一 层 的 约定 就 行 。 

最 底层 处 理 的 是 电信 号 ， 其 余 层 都 基于 下 面 的 层 构 建 而 成 。 在 大 约 中 间 的 位 置 是 IP ( 因 特 
网 协议 ) 层 ， 这 层 规 定 了 网 络 位 置 和 地 址 的 映射 方法 以 及 数据 包 ( 块 ) 的 传输 方式 。IP 层 
的 上 一 层 有 两 个 协议 描述 了 如 何在 两 个 位 置 之 间 移 动 比特 。 
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。 UDP (用 户 数 据 报 协议 ) 
这 个 协议 被 用 来 进行 少量 数据 交换 。 一 个 数据 报 是 一 次 发 送 的 很 少 信息 ， 就 像 明 信和 片上 
的 一 个 音符 一 样 。 
。 TCP (传输 控制 协议 ) 
这 个 协议 被 用 来 进行 长 时 间 的 连接 。 它 会 发 送 比特 流 并 确保 它们 都 能 按 序 到 达 并 且 不 会 
重复 。 
UDP 信息 并 不 需要 确认 ， 因 此 你 永远 无 法 确认 它 是 否 到 达 目 的 地 。 如 果 你 想 讲 一 个 UDP 
笑话 : 
Here's a UDP joke. Get it?( 这 是 一 个 UDP 笑话 ,你 笑 了 吗 ? ) 
TCP 会 在 发 送 者 和 接收 者 之 间 通 过 秘密 握手 建立 有 保障 的 连接 。 下 面 是 一 个 TCP 笑话 : 


Do you want to hear a TCP joke?( 你 想 听 一 个 TCP 笑 话 吗 ? ) 

Yes, I want to hear a TCP joke.( 是 的 ,我 想 听 一 个 TCP 笑 话 。) 

0Okay，I'LL teLL you a TCP joke.( 好 的 ,我 会 告诉 你 一 个 TCP 笑 话 。) 

0Okay，I'LL hear a TCP joke.( 好 的 ,我 会 听 到 一 个 TCP 笑 话 。) 

Okay，I'LL send you a TCP joke now.( 好 的 ,我 现在 要 发 给 你 一 个 TCP 笑 话 。) 

0Okay，I'LL receive the TCP joke now.( 好 的 ,我 现在 会 收 到 一 个 TCP 笑 话 。) 

... (and so on)( 下 面 省 略 ) 
尔 的 本 地 机 器 IP 地 址 一 直 是 127.0.0.1， 名 称 一 直 是 localhost。 你 可 能 昕 过 它 的 另 一 个 
名 字 环 回 接口 。 如 果 连 接 到 因特网 ， 那 你 的 机 器 还 会 有 一 个 公共 IP。 如 果 使 用 的 是 家 用 计 
算 机 ， 那 它 一 般 会 接 到 调制 解 调 器 或 者 路 由 器 上 。 你 甚至 可 以 在 同一 台 机 器 的 两 个 进程 之 
闻 使 用 因特网 协议 。 


在 因特网 上 ， 我 们 接触 到 的 大 多 数 事物 一 一 Web、 数 据 库 服务 器 ， 等 等 一 一 都 是 基于 IP 协 
议 上 的 TCP 协议 运行 的 。 简 单 起 见 ， 写 为 TCP/P。 下 面 先 来 看 一 些 基本 的 因特网 服务 ， 
然后 会 了 解 一 些 常用 的 网 络 化 模式 。 


11.2.4 套 接 字 

我 们 一 直 把 这 个 话题 留 到 现在 才 讲 ， 是 因为 即使 你 不 知道 所 有 的 底层 细节 也 可 以 使 用 高 层 
的 因特网 。 但 是 ， 如 果 你 想 知道 底层 的 工作 原理 ， 那 就 读 读 这 市 吧 。 

最 底层 的 网 络 编程 使 用 的 是 套 接 字 ， 源 于 C 语言 和 Unix 操作 系统 。 套 接 字 层 的 编程 是 非 
常 繁琐 的 。 使 用 类 似 ZeroMQ 的 库 会 简单 很 多 ， 但 是 了 解 一 下 底层 的 工作 原理 还 是 非常 有 
用 的 。 举 例 来 说 ， 网 络 发 生 错误 时 出 现 的 错误 信息 通常 是 和 套 接 字 相关 的 。 

我 们 来 编写 一 个 非常 简单 的 客户 端 - 服务 器 通信 示例 。 客 户 端 发 送 一 个 包含 字符 串 的 UDP 
数据 报 给 服务 器 ， 服 务 器 会 返回 一 个 包含 字符 串 的 数据 包 。 服 务 器 需要 监听 特定 的 地 址 和 
端口 一 一 就 像 邮 局 和 邮 简 一 样 。 客 户 端 需要 知道 这 两 个 值 才 能 发 送 、 接 收 和 响应 消息 。 

在 下 面 的 客户 端 和 服务 器 代码 中 ，address 是 一 个 (地址 ， 端 口 ) 元 组 。address 是 一 个 字 
符 串 ， 可 以 是 名 称 或 者 IP 地 址 。 当 你 的 程序 和 同一 台 机 器 上 的 另 一 个 程序 通信 时 ， 可 以 使 
用 名 称 ' localhost' 或 者 等 价 的 地 址 '127.0.0.1'。 


首先 从 一 个 进程 给 另 一 个 进程 发 送 一 些 数据 ， 让 后 者 返回 一 些 数据 。 第 一 个 程序 是 客户 
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端 ， 第 二 个 程序 是 服务 器 。 在 这 两 个 程序 中 ， 我 们 都 会 打印 出 时 间 并 打开 一 个 套 接 字 。 服 
务 器 会 监听 它 套 接 字 上 的 连接 ， 客 户 端 会 向 它 的 套 接 字 写 人 数据 ， 套 接 字 会 发 送 一 个 消息 














给 服务 器 。 
下 面 是 第 一 个 程序 ，udp_server.py: 

















from datetime import datetime 
import socket 


server_address = ('localhost', 6789) 
max_size = 4096 


print('Starting the server at', datetime.now()) 
print('Waiting for a client to call.') 

server = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) 
server .bind(server_address) 


data, client = server.recvfrom(max_size) 
print('At', datetime.now(), client, 'said', data) 


server .sendto(b'Are you talking to me?', client) 
server.close() 


服务 器 必须 用 socket 包 中 的 两 个 方法 来 建立 网 络 连 接 。 第 一 个 方法 是 socket .socket， 











它 


会 创建 一 个 套 接 字 。 第 二 个 方法 bind 会 绑 定 (监听 到 达 这 个 他 地址 和 端口 的 所 有 数据 ) 
到 这 个 套 接 字 上 。AF_INET 表示 要 创建 一 个 因特网 (IP) 套 接 字 。( 还 有 其 他 类 型 的 Unix 
域 套 接 字 ， 不 过 那些 只 能 在 本 地 运行 。) 50CK_DGRAM 表示 我 们 要 发 送 和 接收 数据 报 ， 换 名 








话说 ， 我 们 要 使 用 UDP。 


之 后 ， 服 务 器 会 等 待 数据 报到 达 (recvfrom)。 收 到 数据 报 后 ， 服 务 器 会 被 唤醒 并 获取 数据 
和 客户 端的 信息 。client 变量 包含 客户 端的 地 址 和 端口 ， 用 于 给 客户 端 发 送 数据 。 接 着 ， 








服务 器 发 送 一 个 响应 并 关闭 连接 。 
下 面 ， 我 们 来 看 看 udp_client.py: 


import socket 
from datetime import datetime 

















server_address = ('localhost', 6789) 
max_size = 4096 


print('Starting the client at', datetime.now()) 

client = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) 
client.sendto(b'Hey!', server_address) 

data, server = client.recvfrom(max_size) 

print('At', datetime.now(), server, 'said', data) 
client.close() 


客户 端的 许多 方法 和 服务 器 一 样 (除了 bind())。 客 户 端 先 发 送 数 据 ， 然 后 接收 数据 ， 
服务 器 恰好 相反 。 

先 在 一 个 窗口 中 启动 服务 器 。 它 会 打印 
数据 : 





FF 
上 


而 


欢迎 信息 ， 然 后 一 直 沉 默 ， 直 到 客户 端 发 送 
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$ python udp_server .py 
Starting the server at 2014-02-05 21:17:41.945649 
Waiting for a client to call. 


接着 在 另 一 个 窗口 中 启动 客户 端 。 它 会 打印 出 欢迎 信息 并 向 服务 器 发 送 数据 ， 打 印 出 响应 
并 退出 : 


$ python udp_client.py 
Starting the client at 2014-02-05 21:24:56.509682 
At 2014-02-05 21:24:56.518670 ('127.0.0.1', 6789) said b'Are you talking to me?' 


最 后 ， 服 务 器 会 打印 类 似 下 面 的 内 容 并 退出 ; 
At 2014-02-05 21:24:56.518473 ('127.0.0.1', 56267) said b'Heyl! 
客户 端 需要 知道 服务 器 的 地 址 和 端口 号 ， 但 是 并 不 需要 指定 自己 的 端口 号 。 它 的 端口 号 由 
系统 自动 分 配 一 一 在 本 例 中 是 56267。 
UDP 使 用 一 个 块 来 发 送 数据 ， 并 且 不 能 保证 一 定 可 以 送 达 。 如 果 你 使 用 
UDP 发 送 多 个 消息 ， 那 它们 可 能 以 任何 顺序 到 达 ， 也 有 可 能 全 部 都 无 法 到 
达 。UDP 很 快 、 很 轻 ， 不 需要 建立 连接 ,但 是 并 不 可 靠 。 




















由 于 UDP 不 可 靠 ， 我 们 准备 使 用 TCP (传输 控制 协议 )。TCP 用 来 进行 长 时 间 连 接 ， 比 如 
Web。TCP 按照 发 送 的 顺序 传输 数据 。 如 果 出 现任 何 问题 ， 它 会 尝试 重新 传输 。 我 们 尝试 
一 下 使 用 TCP 在 客户 端 和 服务 器 之 间 传 输 一 些 包 。 

tcp_clientpy 和 之 前 的 UDP 客户 端 有 点 像 ， 只 向 服务 器 发 送 一 个 字符 串 ， 但 是 在 调用 套 接 
字 时 有 一 些 区 别 ， 如 下 所 示 : 


import socket 
from datetime import datetime 





address = ('localhost', 6789) 
max_size = 1000 


print('Starting the client at', datetime.now()) 

client = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 
client.connect(address) 

client.sendall(b'Hey!') 

data = client.recv(max_size) 

print('At', datetime.now(), 'someone replied', data) 
client.close() 


我 们 把 SOCK_DGRAM 换 成 了 Sock_sTREAM， 指 定 使 用 流 协 议 TCP。 还 使 用 connect() 来 建立 
流 。 使 用 UDP 时 不 需要 这 么 做 ， 因 为 每 个 数据 报 都 是 直接 暴露 在 互联 网 中 。 
tcp_server.py 和 UDP 版 本 也 有 一 些 区 别 : 


from datetime import datetime 
import socket 





address = ('localhost', 6789) 





max_size = 1000 


print('Starting the server at', datetime.now()) 
print('Waiting for a client to call.') 

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM) 
server .bind(address) 

server.listen(5) 


client, addr = server.accept() 
data = client.recv(max_size) 


print('At', datetime.now(), client, 'said', data) 
client.sendall(b'Are you talking to me?') 
client.close() 

server.close() 


server.listen(5) 的 意思 是 最 多 可 以 和 5 个 客户 端 连接 ， 超 过 5 个 就 会 拒绝 。server .accept() 
接收 第 一 个 到 达 的 消息 ，client.recv(1969) 指定 最 大 的 可 接收 消息 长 度 为 1000 字 刷 。 


和 之 前 一 样 ， 先 启动 服务 器 再 启动 客户 端 ， 然 后 看 看 会 发 生 什么 。 首 先是 服务 器 : 


$ python tcp_server.py 

Starting the server at 2014-02-06 22:45:13.306971 

Waiting for a client to call. 

At 2014-02-06 22:45:16.048865 <socket.socket object, fd=6, family=2, type=1, 
proto=0> said b'Hey!' 


接着 是 客户 端 。 它 会 给 服务 器 发 送 消 息 、 接 收 响应 并 退出 : 


$ python tcp_client.py 
Starting the client at 2014-02-06 22:45:16.038642 
At 2014-02-06 22:45:16.049078 someone replied b'Are you talking to me?' 


服务 器 会 收集 消息 、 打 印 出 来 、 发 送 响 应 然后 退出 : 
At 2014-02-06 22:45:16.048865 <socket.socket object, fd=6, family=2, type=1, 
proto=0> said b'Hey!' 

可 以 看 到 ，TCP 服务 器 使 用 client.sendall() 发 送 响 应 ， 之 前 的 UDP 服务 器 使 用 的 是 

cLient .sendto()。TCP 会 维持 多 个 客户 端 - 服务 器 套 接 字 并 保存 客户 端的 IP 地 址 。 

这 看 起 来 并 不 坏 ， 但 是 如 果 你 试 着 编写 更 复杂 的 代码 ， 那 就 会 体会 到 套 接 字 有 多 难 写 。 下 

面 是 一 些 需要 处 理 的 问题 。 

。 UDP 可 以 发 送 消息 ， 但 是 消息 的 大 小 有 限制 ， 而 且 不 能 保证 消息 到 达 目 的 地 。 

。 TCP 发 送 字 布 流 ， 不 是 消息 。 你 不 知道 每 次 调用 时 系统 会 发 送 或 者 接收 多 少 字 市 。 

。 如 果 要 用 TCP 传输 完整 的 消息 ， 需 要 一 些 额 外 的 信息 来 把 片段 拼 竣 成 整个 消息 ， 固定 
的 消息 大 小 ( 字 节 )、 整 个 消息 的 大 小 或 者 一 些 特殊 的 哨兵 字符 。 

。 由 于 消息 是 字 节 ， 不 是 Unicode 文本 字符 串 ， 你 需要 使 用 Python 的 bytes 类 型 。 更 多 
内 容 参 见 第 7 章 。 

看 完 这 些 之 后 ， 如 果 你 还 对 套 接 字 编程 感 兴 趣 ， 可 以 看 看 Python 套 接 字 编程 教程 (https:// 

docs.python.org/3/howto/sockets.html ) 。 
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11.2.5 ZeroMQ 


我 们 已 经 看 过 如 何 用 ZeroMQ 套 接 字 创 建 发 布 - 订阅 模型 。ZeroMQ 是 一 个 库 ， 有 时 候 也 
被 称 为 打 了 激素 的 套 接 字 (sockets on steroids) ，ZeroMQ 套 接 字 实 现 了 很 多 你 需要 但 是 普 
通 套 接 字 没有 的 功能 : 

。 传输 完整 的 消息 


。 当 发 送 方 和 接收 方 的 时 间 不 同步 时 缓存 数据 


这 个 在 线 教程 (http://zguide.zeromq.org/) 写 得 很 好 ， 是 我 见 过 的 最 好 的 讲解 网 络 化 模型 的 
教程 。 印 刷 版 (ZeroMO: Messaging for Many Applications，Pieter Hintjens 著 ，O’Reilly 出 
版 社 ) 中 的 代码 风格 很 好 ， 封 面 上 还 有 一 条 大 鱼 。 印 刷 版 中 的 示例 都 是 用 C 语言 写成 的 ， 
但 是 在 线 版 可 以 选择 很 多 种 语言 ， 比 如 Python 版 示例 (https://github.com/imatix/zguide/ 
tree/master/examples/Python) 。 本 章 会 介绍 一 些 Python 写成 的 简单 的 ZeroMQ 示例 。 


ZeroMQ 就 像 乐 高 积木 ， 我 们 都 知道 用 很 少 的 乐高 积木 就 能 搭建 出 很 多 东西 。 在 本 例 中 ， 
你 可 以 用 很 少 几 个 套 接 字 类 型 和 模式 来 构建 网 络 。 下 面 这 些 “ 乐 高 积木 块 ”是 ZeroMQ 的 
套 接 字 类 型 ， 看 起 来 很 像 之 前 说 过 的 网 络 模型 

。 REQ (同步 请 求 ) 

。 REP (同步 响应 ) 

。 DEALER (异步 请 求 ) 

。 ROUTER (异步 响应 ) 

。 PUB (发 布 ) 

。 SUB (订阅 ) 
。 PUSH (局 出 
。 PULL ( 扁 入 ) 


在 动手 尝试 之 前 ， 需 要 先 安装 Python 的 ZeroMQ 库 : 
$ pip install pyzmq 


最 简单 的 模式 是 一 个 请 求 - 响应 对 。 这 是 同步 的 : 一 个 套 接 字 发 送 请 求 ， 另 一 个 发 送 响 
应 。 首 先是 发 送 响 应 的 代码 (服务 器 )，zmq_server.py: 


import zmq 




































































— 








host = '127.0.0.1" 
port = 6789 
context = zmq.Context() 
server = context.socket(zmq.REP) 
server.bind("tcp://%s:%s" % (host, port)) 
while True: 
# ”等待 客 户 端的 下 一 个 请 求 
request_bytes = server.recv() 
request_str = request_bytes.decode('utf-8') 
print("That voice in my head says: %s" % request_str) 
reply_str = "Stop saying: %s" % request_str 
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repLy_bytes = bytes(reply_str, 'utf-8') 
server.send(reply_bytes) 
创建 一 个 Context 对 象 : 这 是 一 个 能 够 保存 状态 的 ZeroMQ 对 象 。 接 
于 响应 ) 类 型 的 ZeroMQ 套 接 字 。 调 用 bind()， 让 它 监听 特定 的 了 P 


着 创建 一 个 REP (用 
地 址 和 端口 。 注 意 ， 


地 址 和 端口 用 字符 串 'tcp://Locathost:6789' 来 指定 ， 并 不 是 普通 套 接 字 中 的 元 组 。 


这 个 示例 代码 会 从 一 个 发 送 者 接收 请 求 并 发 送 响 应 。 消 息 可 以 非常 长 


这 些 细节 。 











ZeroMQ 会 处 理 


下 面 是 对 应 的 请 求 代 码 (客户 端 )，zmq_client.py。 它 的 类 型 是 REQ (用 于 请 求 ) ， 而 且 调用 











的 是 connect()， 不 是 bind(): 


import zmq 


host = '127.0.0.1" 
port = 6789 
context = zmq.Context() 
client = context.socket(zmq.REQ) 
client.connect("tcp://%s:%s" % (host, port)) 
for num in range(1, 6): 
request_str = "message #%s" % num 
request_bytes = request_str.encode('utf-8') 
client.send(request_bytes) 
reply_bytes = client.recv() 
reply_str = reply_bytes.decode('utf-8') 
print("Sent %s, received %s" % (request_str, reply_str)) 


现在 是 时 候 启动 它们 了 。 和 普通 套 接 字 不 同 的 一 点 是 ， 你 可 以 用 任何 | 
户 端 。 在 后 台 的 一 个 窗口 中 启动 服务 器 : 


$ python zmq_server.py & 
然后 在 同一 个 窗口 中 启动 客户 端 : 
$ python zmq_client.py 
你 会 看 到 客户 端 和 服务 器 交替 输出 如 下 所 示 的 内 容 : 


That voice in my head says 'message #1' 
Sent 'message #1', received 'Stop saying message #1' 
That voice in my head says 'message #2' 
Sent 'message #2', received 'Stop saying message #2'" 
That voice in my head says 'message #3' 
Sent 'message #3', received 'Stop saying message #3' 
That voice in my head says 'message #4' 
Sent 'message #4', received 'Stop saying message #4' 
That voice in my head says 'message #5' 
Sent 'message #5', received 'Stop saying message #5' 




















顺序 启动 服务 器 和 客 





客户 端 发 送 完 第 五 条 消息 之 后 就 退出 了 ， 但 是 我 们 并 没有 让 服务 器 退出 ， 所 以 它 一 直 在 等 
待 消息 。 如 果 再 次 运行 客户 端 ， 它 会 打印 出 相同 的 五 行 ， 服 务 器 也 会 打印 出 这 五 行 。 如 果 


不 终止 zmq_server.py 进程 并 且 再 次 运行 它 ， 那 Python 会 抱怨 说 地 址 已 经 被 使 用 : 
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$ python zmq_server .py & 


[2] 356 
Traceback (most recent call last): 
File "zmq_server.py", line 7, in <module> 
server.bind("tcp://%s:%s" % (host, port)) 
File "socket.pyx", line 444, in zmq.backend.cython.socket.Socket.bind 
(zmq/backend/cython/socket.c:4076) 
File "checkrc.pxd", line 21, in zmq.backend.cython.checkrc._ check_rc 
(zmq/backend/cython/socket.c:6032) 
zmq.error.ZMQError: Address already in use 


消息 需要 用 字 节 字符 串 形式 发 送 ， 所 以 需要 把 示例 中 的 字符 串 用 UTF-8 格式 编码 。 你 可 以 
发 送 任 意 类 型 的 消息 ， 只 要 把 它 转 换 成 bytes 就 行 。 我 们 的 消息 是 简单 的 文本 字符 串 ， 所 
以 encode() 和 decode() 可 以 实现 文本 字符 串 和 字 节 字符 串 的 转换 。 如 果 你 的 消息 包含 其 
他 数据 类 型 ， 可 以 使 用 类 似 MessagePack (http://msgpack.org/) 的 库 来 处 理 。 


由 于 任何 数量 的 REQ 客户 端 都 可 以 connect() 到 一 个 REP 服务 器 ， 即 使 是 基础 的 请 求 - 
响应 模式 也 可 以 实现 一 些 有 趣 的 通信 模式 。 服 务 器 是 同步 的 ， 一 次 只 能 处 理 一 个 请 求 ， 但 
是 并 不 会 丢弃 这 段 时 间 到 达 的 其 他 请 求 。ZeroMQ 会 在 触发 某 些 限制 之 前 一 直 缓 在 这些 消 
息 ， 直 到 它们 被 处 理 ， 这 就 是 ZeroMQ 中 QQ 的 意思 。Q 表示 队列 (Queue)，M 表示 消息 
(Message) ，Zero 表示 不 需要 任何 消息 分 发 者 。 

虽然 ZeroMQ 不 需要 任何 核心 分 发 者 (中间 人 ),， 但 是 如 果 需 要 ， 你 可 以 搭建 一 个 。 举 例 
来 说 ， 可 以 使 用 DEALER 和 ROUTER 套 接 字 异 步 连 接 到 多 个 源 和 /或 目标 。 

多 个 REQ 套 接 字 可 以 连接 到 一 个 ROUTER 上 ， 后 者 会 把 请 求 传递 给 DEALER，DEALER 
又 会 传递 给 和 它 连 接 的 所 有 REP 套 接 字 (图 11-1)。 就 像 很 多 浏览 器 连接 到 一 个 代理 服务 
器 ， 后 者 连接 到 一 个 Web 服务 器 群 。 你 可 以 根据 需要 添加 任意 数量 的 客户 端 和 服务 器 。 












































































































































连接 连接 连接 
请 求 请 求 请 
公平 排队 
绑 定 














绑 定 
负载 均衡 
请 求 请 求 请 求 
| Rep |] ( REP ) (Rep ) 
服务 A | | 服务 B 
图 11-1: 使 用 一 个 分 发 者 连接 多 个 客户 端 和 服务 器 
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REQ 套 接 字 只 能 和 ROUTER 套 接 字 连接 ，DEALER 可 以 和 后 面 的 多 个 REP 套 接 字 连 接 。 
ZeroMQ 会 处 理 具体 的 细节 部 分 ， 确 保 请 求 的 负载 均衡 并 把 响应 发 送 给 正确 的 目标 。 

另 一 种 网 络 化 模式 被 称 为 通风 口 ， 使 用 PUSH 套 接 字 来 发 送 异 步 任 务 ， 使 用 PULL 套 接 字 
来 收集 结果 。 

最 后 一 个 需要 介绍 的 ZeroMQ 特性 是 它 可 以 实现 扩展 和 收缩 ， 只 要 改变 创建 的 套 接 字 连接 
类 型 即 可 : 

。 tcp 适用 于 单机 或 者 分 布 式 的 进程 间 通 信 

。 ipc 适用 于 单机 的 进程 间 通 信 

。 inproc 适用 于 单个 进程 内 线程 间 通 信 

最 后 的 inproc 是 一 种 线程 间 无 锁 的 数据 传输 方式 ， 可 以 替代 11.1.3 节 中 的 threading 
示例 。 


使 用 ZeroMQ 之 后 ， 你 应 该 再 也 不 会 想 写 原始 的 套 接 字 代码 了 。 


ZeroMQ 并 不 是 Python 支持 的 唯一 一 个 消息 传递 库 。 消 息 传递 是 网 络 化 的 
一 个 重要 内 容 ，Python 当然 也 不 能 落后 。9.2.6 节 中 “Apache” 部 分 提 到 的 
Web 服务 器 是 Apache 项 目的 一 部 分 ， 这 个 项 目 也 在 维护 ActiveMQ (https:// 
activemq.apache.org/) 项 目 ， 其 中 包含 了 几 个 使 用 简单 文本 STOMP (http:// 
stomp.github.io/implementations.html) 协议 的 Python 接口 。RabbitMQ (http:// 
www.rabbitmq.com/) 也 很 出 名 ， 并 且 有 优秀 的 Python 教程 (http://www. 
rabbitmq.comy/tutorials/tutorial-one-python.html) 。 













































































11.2.6 scapy 


有 时 候 你 需要 深入 网 络 流 中 处 理 字 节 。 你 可 能 想 要 调试 Web API 或 者 追踪 一 些 安全 问题 。 
scapy 库 是 一 个 优秀 的 Python 数据 包 分 析 工 具 ， 比 编写 和 调试 C 程序 简单 很 多 。 实 际 上 ， 
它 是 一 门 简单 的 用 来 构建 和 分 析 数 据 包 的 语言 。 

我 本 来 计划 在 这 里 展示 一 些 示例 代码 ， 但 是 由 于 以 下 两 点 原因 改变 了 想法 。 

。 scapy 还 不 兼容 Python 3。 这 个 问题 之 前 我 们 也 遇 到 过 ， 当 时 是 使 用 pip2 和 python2 来 


























于 一 本 入 门 级 的 书 来 说 太 复杂 了 。 


[0 果 你 愿意 ， 可 以 看 看 文档 (http://www.secdev.org/projects/scapy/doc/) 中 的 示例 代码 。 这 
Et 代码 可 能 会 让 你 有 勇气 在 机 器 上 安装 scapy。 
最 后 ， 不 要 把 scapy 和 crapy 搞 混 ， 后 者 在 9.3.4 市 有 介绍 。 


11.2.7 网络 服务 


Python 有 许多 网 络 工具 。 下 面 的 内 容 会 介绍 如 何 用 自动 化 的 方式 实现 那些 最 流行 的 网 络 服 
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务 。 官 方 的 完整 文档 (https://docs.python.org/3/library/internet.html) 可 以 在 线 查 看 。 


1. 域名 系统 
计算 机 有 类 似 85.2.161.94 的 数字 IP 地 址 ， 但 是 相 比 数字 ， 我 们 更 容易 记 住 名 称 。 域 名 系 
统 (DNS) 是 一 个 非常 重要 的 网 络 服务 ， 通 过 一 个 分 布 式 的 数据 库 实 现 卫 地址 和 名 称 的 转 
换 。 当 你 使 用 Web 浏览 器 并 且 看 到 类 似 “ 查 找 主机 ”的 消息 时 ， 那 可 能 就 是 网 络 连接 中 断 
了 ， 第 一 种 可 能 就 是 DNS 错误 。 
在 底层 socket 模块 中 有 一 些 DNS 国 数 。gethostbyname() 会 返回 一 个 域名 的 卫 地 址 、 扩 
展 版 本 gethostbyname_ex() 会 返回 名 称 、 一 个 可 选 名 称 列表 和 一 个 地 址 列表 : 

>>> import socket 

>>> socket.gethostbyname( 'www.crappytaxidermy.com') 

'66.6.44.4' 


>>> socket.gethostbyname_ex( 'www.crappytaxidermy .com') 
('crappytaxidermy.com', ['www.crappytaxidermy.com'], ['66.6.44.4']) 


getaddrinfo() 方法 会 查找 了 P 地 址 ， 不 过 它 返 回 的 信息 很 全 ， 可 以 用 于 创建 套 接 字 连 接 : 


>>> socket.getaddrinfo('www.crappytaxidermy.com', 80) 
[(2, 2, 17, '', ('66.6.44.4', 80)), (2, 1, 6, '', ('66.6.44.4', 80))] 


上 面 的 调用 会 返回 两 个 元 组 ， 第 一 个 用 于 UDP， 第 二 个 用 于 TCP (2，1，6 中 的 6 表示 的 
就 是 TCP)。 
你 可 以 只 获取 TCP 或 者 UDP 信息 : 


>>> socket.getaddrinfo('www.crappytaxidermy.com', 80, socket.AF_INET, 
socket.SOCK_STREAM) 
[(2, 1, 6, '', ('66.6.44.4', 80))] 
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有 些 TCP 和 UDP 端口 号 (http://en.wikipedia.org/wiki/List_of_TCP_and_UDP_port_numbers) 
是 IANA 为 特定 服务 保留 的 ， 每 个 端口 号 关联 一 个 服务 名 。 举 例 来 说 ，HTTP 的 名 称 是 
http， 关 联 到 TCP 端口 80。 


下 面 的 函数 可 以 实现 服务 名 和 端口 号 的 转换 : 


>>> import socket 

>>> Socket.getservbyname( 'http ' ) 
80 

>>> socket.getservbyport(80) 
'http’ 


2. Python 的 Email 模 块 

标准 库 中 有 以 下 这 些 Email 模块 : 

。 smtplib 使 用 简单 邮件 传输 协议 (SMTP) 发 送 邮 件 ; 

。 email 用 来 创建 和 解析 邮件 ， 

。 poplib 可 以 使 用 邮递 协议 (POP3) 来 读 取 邮件 ，; 

。 imaplib 可 以 使 用 因特网 消息 访问 协议 (IMAP) 来 读 取 邮件 。 


官方 文档 包含 这 些 库 对 应 的 示例 代码 (https://docs.python.org/3/library/email-examples.html) 。 
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如 果 你 想 编写 自己 的 Python SMTP 服务 器 ， 可 以 试 试 smtpd (https://docs.python.org/3/ 
library/smtpd.html) 。 

Lamson (http://Lamsonproject.org/) 是 一 个 纯 Python 的 SMTP 服务 器 ， 可 以 在 数据 库 中 存 
储 邮件 ， 其 至 可 以 过 滤 垃 圾 邮件 。 

3. 其 他 协议 

标准 的 ftplib 模块 (https://docs.python.org/3/library/ftplib.html) 可 以 使 用 文件 传输 协议 
(FTP) 来 发 送 字 节 。 虽 然 这 是 一 个 很 古老 的 协议 ， 但 它 的 表现 仍然 非常 优秀 。 

本 书 已 经 介绍 了 很 多 标准 库 中 的 模块 ， 不 过 还 是 推荐 你 阅读 一 下 标准 库 文档 中 的 网 络 协议 
(https://docs.python.org/3/library/internet.html) 部 分 。 














11.2.8 Web 服务 和 API 


信息 提供 商都 有 网 站 ， 但 是 这 些 网 站 的 目标 是 普通 用 户 ， 并 不 是 自动 化 。 如 果 数 据 只 展示 
在 网 页 上 ， 那 想 要 获取 并 结构 化 这 些 数据 的 人 就 必须 编写 仆 虫 (参见 9.3.4 节 )， 在 页 面 格 
式 改 变 时 还 必须 更 新 爬虫 。 这 是 一 件 很 麻烦 的 事 。 但 是 如 果 一 个 网 站 提供 数据 API， 那 对 
于 客户 端 程序 来 说 ， 数 据 的 获取 就 会 变 得 非常 直观 。 相 比 网 页 布局 ，API 很 少 改 变 ， 因 此 
客户 端 也 不 需要 经 常 重 写 。 一 个 快速 、 整 洁 的 数据 通道 可 以 大 大 简化 混搭 程序 的 编写 难 
度 一 一 这 些 程序 虽然 不 具备 前 瞻 性 ， 但 是 可 能 非常 有 用 并 且 能 带 来 利润 。 

通常 来 说 ， 最 简单 的 API 是 一 个 Web 接口 ， 可 以 提供 类 似 JSON 或 者 XML 的 结构 化 数 
据 ， 而 不 是 纯 文 本 或 者 HIML。API 既 可 以 做 得 非常 简单 也 可 以 是 一 套 成 熟 的 RESTful 
API (9.3.2 节 有 具体 定义 )， 后 者 可 以 更 好 地 处 理 那些 不 安 分 的 字 节 '。 


在 本 书 的 最 开始 ， 你 就 看 过 一 个 Web API: 它 从 YouTube 上 获取 最 流行 的 视频 。 在 看 过 
Web 请 求 、JSON、 字 和 典 、 元 组 和 切片 之 后 ， 这 个 例子 应 该 已 经 很 容易 理解 了 : 

import requests 

url = "https://gdata.youtube.com/feeds/api/standardfeeds/top_rated?alt=json" 

response = requests.get(urL) 

data = response.json() 

for video in data['feed']['entry'][0:6]: 

print(video['title']['$t']) 

在 挖掘 知名 社交 媒体 网 站 ， 比 如 Twitter、Facebook 和 LinkedIn 时 ，API 非常 有 用 。 这 些 
网 站 都 提供 可 以 免费 使 用 的 API， 但 是 它们 要 求 你 注册 来 获得 一 个 key (一 个 很 长 的 文本 
字符 串 ， 有 时 也 被 称 为 token)， 使 用 这 个 key 来 访问 API。 网 站 可 以 通过 key 来 判断 是 谁 
在 获取 数据 ， 也 可 以 用 它 来 限制 请 求 频率 。 在 YouTube 这 个 例子 中 ， 进 行 搜索 不 需要 API 
key， 但 是 如 果 要 更 新 YouTube 上 的 数据 ， 那 就 必须 使 用 key。 


下 面 是 一 些 有 趣 的 服务 API: 


。 纽约 时 报 (http://developer.nytimes.com/) 
。 YouTube (http:/Wgdata.youtube.com/demo/index.html ) 
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注 1: 英语 “不 安 分 ”是 restless， 正 好 和 RESTful 对 应 。 一 一 译 者 注 
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。 Twitter (https://dev.twitter.com/docs/twitter-libraries) 

。 Facebook (https://developers.facebook.com/tools/ ) 

。 Weather Underground (http://www.wunderground.com/weather/api/) 
。 漫 威 漫 画 (http://developer.marvel.com/) 


你 可 以 在 附录 B 中 看 到 地 图 API 示例 ， 附 录 C 中 还 有 其 他 示例 。 


11.2.9 远程 处 理 


本 书 中 的 很 多 示例 都 是 介绍 如 何在 同一 台 机 器 上 调用 Python 代码 ， 通 常 还 是 在 同一 个 进程 
中 。 但 是 Python 的 能 力 远 不 止 这 些 ， 你 可 以 调用 其 他 机 器 上 的 代码 ， 就 像 它们 在 本 地 一 
样 。 在 高 级 设置 中 ， 如 果 你 用 完了 单机 的 空间 ， 可 以 扩展 到 其 他 机 器 。 通 过 网 络 连 接 的 一 
组 计算 机 可 以 让 你 操作 更 多 进程 和 /或 线程 。 
1. 远程 过 程 调 用 
远程 过 程 调用 (RPC) 看 起 来 和 普通 的 函数 一 样 ， 但 其 实 运行 在 通过 网 络 连接 的 远程 机 器 
上 。RESTful API 需要 通过 URL 编码 参数 或 者 请 求 体 来 调用 ， 但 是 RPC 函数 是 在 你 自己 
的 机 器 上 调用 。 下 面 是 RPC 客户 端的 工作 原理 : 


(1) 把 你 的 函数 参数 转换 成 比特 (有 时 候 被 称 为 编组 、 序 列 化 或 者 编码 ) ， 
(2) 把 编码 后 的 字 节 发 送 给 远程 机 器 。 


下 面 是 远程 机 器 的 工作 原理 : 

(1) 接收 编码 后 的 请 求 字 市， 

(2) 接收 完毕 后 ，RPC 客户 端 会 把 字 节 解码 成 原始 的 数据 结构 (或 者 等 价 的 东西 ， 如 果 两 
台 机 器 的 硬件 和 软件 有 差别 ) ; 

(3) 客户 端 找到 本 地 目标 函数 并 用 解码 后 的 数据 调用 它 ， 

(4) 客户 端 编码 国 数 执行 结果 ， 

(5) 客户 端 把 编码 后 的 字 节 发 送 给 调用 者 。 

最 后 ， 发 起 请 求 的 机 器 把 字 节 解码 成 返回 值 。 

RPC 是 一 种 非常 流行 的 技术 ， 有 很 多 种 实现 方式 。 在 服务 端 ， 你 可 以 启动 一 个 服务 器 程 

序 ， 把 它 和 一 些 字 节 传 输 和 编码 / 解码 方法 连接 起 来 ， 定 义 一 些 访问 函数 并 宣布 你 的 RPC 

开始 正常 运转 。 客 户 端 可 以 连接 到 服务 器 并 通过 RPC 调用 服务 器 的 函数 。 

标准 库 中 包含 一 种 RPC 实现 ，xmLrpc， 使 用 XML 作为 传输 格式 。 你 在 服务 器 上 定义 并 注 

册 函 数 ， 客 户 端 使 用 类 似 导入 的 方式 来 调用 它们 。 首 先 来 看 文件 xmlrpc_server.py: 


from xmLrpc.server import SimpleXMLRPCServer 
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def double(num): 
return num * 2 


server = SimpleXMLRPCServer(("localhost", 6789)) 
server .register_function(double, "double") 
server .serve_forever() 
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我 们 在 服务 器 上 提供 了 double() 函数 ， 它 接收 一 个 数字 参数 并 返回 这 个 数字 乘 以 2 的 结 
果 。 服 务 器 在 一 个 地 址 和 端口 上 启动 。 我 们 需要 注册 函数 ， 这 样 它 才能 让 客户 端 通过 RPC 
调用 。 最 后 ， 启 动 服务 器 并 等 待 。 

接着 ， 和 你 想 的 一 样 ，xmlrpc_client.py: 


import xmlrpc.client 

















proxy = xmlrpc.client.Serverproxy("http://Llocalhost:6789/") 
num =7 

result = proxy.double(num) 

print("Double %s is %s" % (num, result)) 


客户 端 通过 ServerProxy() 和 服务 器 连接 。 接 着 它 会 调用 proxy.double()。 这 个 函数 是 哪 
儿 来 的 ? 实际 上 ， 它 是 由 服务 器 动态 生成 的 。RPC 机 制 会 截获 这 个 孙 数 名 开 在 远程 服务 器 
上 调用 它 。 
下 面 来 看 一 下 效果 ， 先 启动 服务 器 

$ python xmLrpc_server .py 
接着 启动 客户 端 : 


$ python xmlrpc_client.py 
Double 7 is 14 


服务 器 会 打印 出 如 下 内 容 : 


127.0.0.1 - - [13/Feb/2014 20:16:23] "POST / HTTP/1.1" 200 - 


























常用 的 传输 方式 是 HTTP 和 ZeroMQ。 除 了 XML 外 ，JSON、Protocol Buffers 和 Message- 
Pack 也 是 常用 的 编码 方式 。 有 许多 基于 JSON 的 Python RPC 包 ， 但 是 它们 要 么 不 支 
持 Python 3， 要 么 太 难 用 。 这 里 我 们 使 用 MessagePack 自己 的 Python RPC 实现 (https:// 
github.com/msgpack-rpc/msgpack-rpc-python)。 下 面 是 安装 方法 : 





$ pip install msgpack-rpc-python 


这 条 命令 还 会 安装 tornado， 这 是 一 个 基于 事件 的 Python Web 服务 器 ， 会 被 这 个 库 用 于 传 
输 数 据 。 按 照 惯例 ， 先 是 服务 器 的 代码 (msgpack_server.py) : 

from msgpackrpc import Server，Address 

CLass Services(): 

def double(self, Num): 
return num * 2 

server = Server(Services()) 

server.listen(Address("localhost", 6789)) 

server .start() 


Services 类 把 它 的 方法 暴露 为 RPC 服务 。 下 面 是 客户 端 msgpack_client.py: 


from msgpackrpc import Client, Address 
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client = Client(Address("localhost", 6789)) 
num = 8 

resuLt = client.call('double', num) 
print("Double %s is %s" % (num, result)) 


依照 惯例 ， 先 启动 服务 器 再 启动 客户 端 : 


$ python msgpack_server.py 

















$ python msgpack_client.py 
Double 8 is 16 


2. fabric 

fabric 包 可 以 运行 远程 或 者 本 地 命令 、 上 传 或 者 下 载 文件 、 用 sudo 权限 运行 命令 。 这 个 
包 使 用 安全 Shell (SSH: 加 密 文本 协议 ， 基 本 上 已 经 代替 了 telnet) 来 运行 远程 程序 。 你 
需要 把 (Python) 函数 写 入 一 个 fabric 文件 并 声明 它们 应 该 在 远程 还 是 本 地 执行 。 之 后 ， 
使 用 时 需要 用 fabric 程序 (名字 是 fab， 但 是 并 不 是 向 披 头 士 或 者 洗涤 灵 致 敬 ) 来 运行 ， 
需要 指定 目标 远程 机 器 和 目标 函数 。 它 比 RPC 简单 很 多 。 


在 编写 本 书 时 ，fabric 的 作者 正在 合并 一 些 和 Python 3 相关 的 改动 。 如 果 完 
成 修改 ， 那 下 面 的 例子 可 以 正常 运行 。 不 过 ， 在 那 之 前 还 是 需要 使 用 Python 
2 来 运行 。 














首先 ， 用 下 面 的 命令 安装 fabric: 
$ pip2 install fabric 

可 以 不 使 用 SSH， 直 接 用 fabric 运行 本 地 Python 代码 。 把 下 面 的 代码 保存 为 fabl.py: 
def iso(): 


from datetime import date 
print(date.today().isoformat()) 


接着 ,输入 下 面 的 命令 来 运行 : 


$ fab -f fabi.py -H LocaLhost iso 











[LocaLhost] Executing task 'iso' 
2014-02-22 


Done. 


-f fab1.py 选项 指定 使 用 fabric 文件 fabl.py， 而 不 是 默认 的 fabfile.py。-H localhost 选项 
指定 运行 本 地 的 命令 。 最 后 ，iso 是 fab 文件 中 要 运行 的 函数 名 。 它 的 工作 原理 和 之 前 的 
RPC 有 点 像 。 具 体 的 选项 参见 官方 文档 (http://docs.fabfile.org/)。 

要 在 本 地 或 者 远程 运行 外 部 程序 ， 机 器 必须 运行 SSH 服务 器 。 在 Unix 类 系统 中 ， 服 务 器 


是 sshd，service sshd status 可 以 检查 服务 器 是 否 启 动 ， 如 果 需 要 ， 可 以 使 用 service 
sshd start 来 启动 它 。 在 Mac 中 ， 打开“ 系统 偏好 设置 "， 点 击 “ 共 享 "， 然 后 色 选 “远程 




















登录 ”。Windows 没有 内 置 的 SSH 支持 ， 建 议 安 装 putty (http://www.chiark.greenend.org. 


uk/~sgtatham/putty/) 。 


我 们 还 是 使 用 了 函数 名 iso， 但 这 次 使 用 local() 来 运行 命令 。 下 面 是 代码 和 输出 : 


from fabric.api import local 


def iso(): 
local('date -u') 


$ fab -f fab2.py -H localhost iso 


[LocaLhost] Executing task 'iso' 
[LocaLhost] local: date -u 


Sun Feb 23 05:22:33 UTC 2014 


Done. 


Disconnecting from localhost... done. 

















[oe my 











local() 对 应 的 远程 方法 是 run()。 下 面 是 fab3.py: 








from fabric.api import run 


def iso(): 
run('date 


-u') 


fabric 在 遇 到 run() 时 会 使 用 SSH 连接 命令 行 中 用 -H 指定 的 主机 。 如 果 你 有 本 地 网 络 并 


且 可 以 使 用 SSH 连接 一 个 主机 ， 那 可 以 在 -H 之 后 加 上 那个 主机 名 (就 像 下 




















看 的 示例 一 


样 )。 如 果 没 有 这 样 的 主机 ， 那 就 使 用 LocaLhost，fabric 会 像 访问 远程 机 器 一 样 访 问 它 ， 


这 在 测试 时 很 有 用 。 本 例 还 是 使 用 Locathost: 


$ fab -f fab3.py -H localhost iso 





[LocaLhost] "so' 
[LocaLhost] 
[LocaLhost] 
[LocaLhost] 


[LocaLhost] 


Executing task 
run: date -u 


out: 


Done. 


Disconnecting from localhost... done. 


注意 ， 我 需要 输入 密码 来 登录 。 如 果 想 省 略 这 一 步 ， 可 以 在 fabric 文件 中 写 入 密码 : 


from fabric.api import run 
from fabric.context_managers import env 


env.password = "your password goes here' 


def iso(): 
run('date -u') 


Login password for 'yourname': 
out: Sun Feb 23 05:26:05 UTC 2014 
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$ fab -f fab4.py -H LocaLhost iso 


[LocaLhost] Executing task "iso' 

[LocaLhost] run: date -U 

[LocaLhost] out: Sun Feb 23 05:31:00 UTC 2014 
[LocaLhost] out: 








Done . 
Disconnecting from localhost... done. 
把 密码 放 在 代码 中 非常 不 安全 。 更 好 的 方法 是 使 用 公 钥 和 密 钥 配置 SSH， 可 
以 使 用 ssh-keygen (https://help.github.com/articles/generating-ssh-keys/) 。 
3. Salt 


Salt (http://saltstack.com/) 最 初 的 目的 是 实现 远程 运行 ,但 是 后 来 变 成 了 一 个 完整 的 系统 
管理 平台 。 它 是 基于 ZeroMQ 开发 的 ， 不 是 基于 SSH， 因 此 可 以 扩展 到 上 千 台 服务 器 。 
Salt 还 没有 兼容 Python 3， 这 里 我 不 会 提供 Python 2 的 示例 代码 。 如 果 你 对 它 感 兴趣 ， 可 
以 阅读 文档 并 等 待 它 兼 容 Python 3。 











类 似 的 产品 有 puppet (http://puppetlabs.com/) 和 chef (http://www.getchef. 
com/chef/)， 它 们 和 Ruby 关系 密切 。ansible (http://www.ansible.com/home) 
包 是 Python 写成 的 另 一 个 类 似 Salt 的 系统 ， 也 值得 一 试 。 它 可 以 免费 下 载 
和 使 用 ， 但 是 支持 和 一 些 播 件 包 需要 商业 许可 。 它 默认 使 用 SSH， 并 且 并 不 
需要 在 机 器 上 安装 其 他 特殊 软件 。 

salt 和 ansible 都 包含 了 fabric 的 功能 ， 可 以 进行 初始 化 配置 、 部 署 和 远程 
执行 。 


11.2.10 ”大 数据 和 MapReduce 

当 Google 和 其 他 互联 网 公司 成 长 起 来 之 后 ， 它 们 发 现 传统 的 计算 机 解决 方案 不 能 扩展 。 
可 以 运行 在 单机 或 者 少量 机 器 上 的 软件 无 法 支持 上 千 台 机 器 。 

存储 数据 的 数据 库 和 文件 需要 多 次 寻 道 ， 这 会 产生 多 次 磁头 移动 。( 想 想 
动 唱 针 的 时 间 ， 再 想 想 唱 针 放下 时 造成 的 噪音 和 人 们 说 话 的 声音 。) 但 是 
上 的 区 块 时 速度 很 快 。 

开发 者 发 现 把 数据 分 布 在 网 络 的 不 同 机 器 上 并 进行 分 析 会 比 只 用 一 台 机 器 快 很 多 。 它 们 
会 使 用 那些 听 起 来 很 简单 但 是 效率 很 高 的 算法 来 快速 处 理 分 布 式 数据 。 其 中 之 一 就 是 
MapReduce， 它 可 以 在 许多 机 器 上 执行 计算 并 收集 结果 ， 很 像 队 列 。 

Google 在 论文 中 发 表 这 个 成 果 之 后 ，Yahoo 发 布 了 一 个 基于 Java 的 开源 包 ， 名 为 Hadoop 
(这 个 名 字 来 产 于 项 目 领导 者 儿子 的 一 个 玩具 大 象 ) 。 





有 黑 胶 唱片 和 它 移 


连续 读 取 磁 盘 
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这 里 要 说 一 下 大 数据 这 个 词 。 通 党 来 说 ， 它 的 意思 是 “数据 对 于 我 的 机 器 来 说 太 大 了 ”: 
数据 超出 了 已 有 的 磁盘 、 内 存 、CPU 时 间或 者 所 有 这 些 。 对 于 某 些 组 织 来 说 ， 一 旦 遇 到 
大 数据 问题 ， 那 解决 方案 总 是 Hadoop。Hadoop 会 把 数据 复制 到 其 他 机 器 上 ， 通 过 map 和 
reduce 程序 来 处 理 它们 并 把 每 一 步 的 结果 存储 到 磁盘 上 。 

这 个 过 程 可 能 很 慢 。 更 快 的 方法 是 Hadoop 流 ， 就 像 Unix 的 管道 一 样 ， 把 每 一 步 产生 的 数 
据 流 直接 传输 给 下 一 步 ， 这 样 就 可 以 避免 存储 到 磁盘 。 你 可 以 用 任何 语言 来 编写 Hadoop 
流程 序 ， 包 括 Python。 

已 经 有 很 多 关于 Hadoop 的 Python 模块 , “Python Hadoop 框架 教程 ”(http://blog.cloudera. 
com/blog/2013/01/a-guide-to-python-frameworks-for-hadoop/) 这 篇 博文 介绍 了 很 多 。Spotify 
公司 的 流 媒体 音乐 很 出 名 ， 它 开源 了 自己 处 理 Hadoop 流 的 Python 部 件 Luigi (https:// 
github.com/spotify/luigi)。 不 过 现在 还 不 兼容 Python 3。 









































Hadoop 有 一 个 竞争 对 手 Spark (http://spark.apache.org/docs/latest/index.html) ， 它 的 目标 是 
大 大 加 快运 行 速度 。 它 可 以 读 取 和 处 理 所 有 Hadoop 的 数据 结构 和 格式 。Spark 包含 Python 
和 其 他 语言 的 API， 可 以 参见 在 线 安装 文档 (http:/spark.apache.org/downloads.html) 。 


另 一 个 类 似 的 产品 是 Disco (http://discoproject.org/)， 它 使 用 Python 来 完成 MapReduce 过 
程 ， 使 用 Erlang 完成 通信 部 分 。 不 过 ， 只 可 惜 无 法 使 用 pip 来 安装 ， 有 具体 方法 参见 文档 
(http://disco.readthedocs.org/en/latest/ startdownload.html ) 。 


附录 C 有 并 行 编程 相关 的 示例 ， 可 以 在 分 布 式 集群 中 执行 大 规模 结构 化 计算 。 


11.2.11 在 云 上 工作 

不 久之 前 ， 你 还 需要 买 自己 的 服务 器 ， 把 它们 放 在 数据 中 心 的 机 柜上 ， 安 装备 种 软件 : 
操作 系统 、 设 备 驱 动 、 文 件 系 统 、 数 据 库 、Web 服务 器 、 邮 件 服务 器 、 域 名 服务 器 、 负 
载 均 衡 、 监 控 程 序 ， 等 等 。 当 你 做 过 很 多 遍 之 后 ， 就 会 失去 新 鲜 感 ， 并 且 需 要 一 直 担 心 
安全 问题 。 

许多 托管 服务 都 提供 有 偿 维 护 ， 但 是 你 仍然 需要 租用 物理 设备 并 且 按 照 峰值 负载 来 付费 。 


机 器 数量 多 了 之 后 ， 就 很 容易 出 现 问题 。 你 需要 横向 扩展 服务 并 对 数据 做 元 余 存 储 。 网 络 
操作 和 单机 完全 不 同 ，Peter Deutsch 说 过 ， 分 布 式 计算 的 八大 误解 是 : 

。 网 络 是 可 靠 的 

。 延迟 为 零 ; 

。 带宽 无 限 ， 

。 网 络 是 安全 的 ， 

。 拓扑 结构 不 会 改变 ， 

。 传输 成 本 为 零 ; 

。 网 络 是 同 构 的 。 

你 可 以 试 着 搭建 复杂 的 分 布 式 系统 ， 但 这 非常 困难 ， 并 且 需 要 另 一 组 工具 集 。 借 用 一 个 比 
喻 ， 如 有 果 你 只 有 少数 几 个 服务 器 ， 你 会 像 对 待 宠物 一 样 对 待 它 们 一 一 给 它们 命名 ， 了 解 它 
们 的 特点 ， 在 需要 时 尽量 治疗 它们 。 但 是 规模 变 大 之 后 ， 你 像 对 待 收口 一 样 对 待 它们 : 它 
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们 看 起 来 都 一 样 ， 每 个 都 有 编号 ， 如 果 遇 到 问题 可 以 被 奉 换 掉 。 
除了 自己 搭建 ， 你 还 可 以 租用 云 上 的 服务 器 。 使 用 这 种 模式 时 ， 维 护 是 其 他 人 的 问题 ， 你 
可 以 专注 在 你 的 服务 、 博 客 或 者 任何 你 想 展示 给 世界 的 东西 上 。 使 用 Web 仪表 盘 和 API 
可 以 快速 和 轻松 地 创建 任何 你 需要 的 服务 器 它们 是 有 弹性 的 。 你 可 以 监控 它们 的 状 
态 ， 如 果 某 些 参数 超过 国 值 会 收 到 提醒 。 目 前 ， 云 是 一 个 非常 火 的 话题 ， 企 业 在 云 组 件 上 
的 支出 在 不 断 凯 升 。 
下 面 我 们 来 看 看 如 何在 Python 中 使 用 现在 流行 的 云 平台 。 
1. Google 
Google 内 部 大 量 使 用 Python， 它 还 招聘 了 很 多 高 级 Python 开发 者 ( 连 吉 多 : 范 - 罗 苏 姆 都 
工作 过 一 段 时 间 )。 
打开 App Engine 网 站 (https://developers.google.com/appengine/)， 在 “选择 语言 ”下 面 点 
击 Python。 你 可 以 在 云 编辑 器 中 输入 Python 代码 ， 可 以 直接 在 下 方 看 到 运行 结果 。 在 结果 
后 面 是 链接 ， 可 以 下 载 Python SDK， 这 样 你 就 可 以 在 自己 的 硬件 上 使 用 Google 的 云 API 
进行 开发 。 下 面 是 把 应 用 部 署 到 AppEngine 的 一 些 细节 。 
在 Google 云 的 主页 (https://cloud.google.com/) 上 可 以 找到 服务 的 详细 介绍 。 
。 App Engine 

个 高 层 平台 ， 包 含 一 些 Python 工具 ， 比 如 flask 和 django。 































































































。 Compute Engine 

创建 一 个 虚拟 机 集群 来 进行 大 规模 分 布 式 计算 。 
。 Cloud Storage 

对 象 存储 (对象 是 文件 ， 但 是 没有 目录 结构 )。 
。 Cloud Datastore 

大 型 NoSQL 数据 库 。 
。 Cloud SQL 

大 型 SQL 数据 库 。 
。 Cloud Endpoints 

用 Restful 来 访问 应 用 。 





。 BigQuery 

类 似 Hadoop 的 大 数据 处 理 。 
如 果 硬 要 说 ，Google 的 服务 在 和 Amazon、OpenStack 竞争 。 
2. Amazon 
当 Amazon 的 服务 器 数量 剧 增 之 后 ， 开 发 者 遇 到 了 许多 分 布 式 系统 带 来 的 问题 。 大 约 是 
2002 年 的 某 一 天 ，CEO Jeff Bezos 向 所 有 员工 宣布 ， 从 今 往 后 ，Amazon 的 所 有 数据 和 功 
能 都 要 通过 网 络 服 务 接口 来 使 用 一 一 再 也 没有 文件 、 数 据 库 或 者 本 地 调用 。 他 们 必须 把 这 
些 接口 设计 成 可 以 公开 使 用 。 最 后 Jeff 说 :“ 做 不 到 的 人 会 被 解 诞 。” 
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不 出 所 料 ， 开 发 者 们 开发 出 一 个 非常 大 的 面向 服务 的 架构 。 他 们 借鉴 了 很 多 解决 方案 ， 最 
终 完 成 了 Amazon Web Services (AWS，http://aws.amazon.com/cn/)。 这 个 庞然大物 现在 已 
经 统治 了 市 场 。 目 前 ，AWS 包含 很 多 服务 。 和 我 们 关系 最 密切 的 有 以 下 这 些 服 务 。 


。 Elastic Beanstalk 
高 层 应 用 平台 
。 EC2 (Elastic Compute) 
分 布 式 计算 
。 S3 (Simple Storage Service) 
对 象 存 储 
。 RDS 
关系 数据 库 (MySQL、PostgreSQL 
。 DynamoDB 
NoSQL 数据 库 
。 Redshift 
数据 仓库 
。 EMR 








Hadoop 
更 多 关于 AWS 服务 的 细节 ， 请 下 载 A 





、Oracleg、MSSQL ) 


mazon Python SDK (http://aws.amazon.com/developers/ 


getting-started/python/) 并 阅读 帮助 部 分 。 





官方 的 Python AWS 库 boto (http://docs.pythonboto.org/en/latest/) 是 另 一 个 类 似 的 工具 ， 


还 没有 完全 兼容 Python 3。 你 需要 使 月 











日 Python 2 或 者 使 用 其 他 类 似 的 工具 ， 可 以 在 Python 





包 索 引 (https://pypi.python.org/pypi) 中 搜索 “aws” 或 者 “amazon”。 


3. OpenStack 


第 二 个 非常 流行 的 云 服务 是 由 Rackspace 提供 的 。2010 年 ，Rackspace 和 NASA 达成 了 不 
寻常 的 合作 关系 ， 把 它们 的 一 些 云 设施 合并 成 了 OpenStack (http://www.openstack.org/)。 











这 是 一 个 免费 的 开源 平台 ， 可 以 搭建 公有 云 、 私 有 云 和 混合 云 。 每 6 个 月 发 布 一 个 新 版 
本 ， 最 近 的 版 本 有 超过 125 万 Python 代码 ， 有 很 多 贡献 者 。 越 来 越 多 的 组 织 在 产品 中 使 用 





OpenStack， 包 括 CERN 和 PayPal。 
OpenStack 的 主要 API 是 RESTful 的 ， 


它 的 Python 模块 还 提供 了 程序 级 别 的 接口 和 用 于 


shell 自动 化 的 命令 行 Python 程序 。 下 面 是 当前 发 行 版 中 的 一 些 标准 访问 。 





。 Keystone 


认证 服务 ， 提 供认 证 (比如 用 户 名 


。 Nova 





/密码 )、 授 权 (功能 ) 和 服务 发 现 。 


计算 服务 ， 通 过 网 络 上 的 服务 器 进行 分 布 式 工作 。 
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。 Swift 
对 象 存储 ， 类 似 Amazon 的 S3。 它 被 用 于 Rackspace 的 Cloud Files 服务 。 


。 Glance 
中 层 的 镜像 存储 服务 。 
。 Cinder 
低层 次 的 块 存储 服务 。 
。 Horizon 
基于 Web 的 所 有 服务 的 仪表 盘 。 
。 Neutron 
网 络 管理 服务 。 
。 Heat 
配置 管理 (多 个 云 ) 服务 。 
。 Ceilometer 
送 测 (度量 、 监 控 ) 服务 。 
经 常 有 新 服务 被 提出 ， 有 些 经 过 孵化 过 程 后 ， 可 能 会 成 为 标准 OpenStack 平台 的 一 部 分 。 
OpenStack 运行 在 Linux 或 者 Linux 虚拟 机 中 。 核 心服 务 的 安装 还 是 有 些 复杂 。 在 Linux 


上 安装 OpenStack 最 快捷 的 方法 就 是 使 用 Devstack (http://docs.openstack.org/developer/ 
devstack/) 来 一 键 安装 。 完 成 后 ， 你 可 以 使 用 一 个 Web 仪表 盘 来 查看 和 配置 其 他 服务 。 


如 果 想 手动 安装 OpenStack， 可 以 使 用 Linux 的 包 管 理工 具 。 所 有 的 主要 Linux 发 行 版 都 
支持 OpenStack 并 且 在 下 载 服 务 器 上 提供 了 官方 安装 包 。 可 以 在 OpenStack 官网 上 查看 安 
装 文档 、 新 闻 和 相关 信息 。 


OpenStack 的 开发 和 企业 支持 正在 逐步 推进 ， 很 像 当 年 Linux 和 Unix 竞争 的 情景 。 


11.3 练习 


(1) 使 用 原始 的 socket 来 实现 一 个 获取 当前 时 间 的 服务 。 当 客户 端 向 服务 器 发 送 字 符 
time 上 时， 服务 器 会 返回 当前 日 期 和 时 间 的 ISO 格式 字符 

(2) 使 用 ZeroMQ 的 REQ 和 REP 套 接 字 实 现 同样 的 功能 。 

(3) 使 用 XMLRPC 实现 同样 的 功能 。 

(4) 你 可 能 看 过 那 部 很 老 的 《我 爱 露 西 》(7 Love Lucy) 电视 节目 。 露 西 和 埃 塞 尔 在 一 个 巧 

克 力 工厂 里 工作 (这 是 传统 )。 他 们 落 在 了 运输 甜点 的 传送 带 后 面 ， 所 以 必须 用 更 快 的 

速度 进行 处 理 。 写 一 个 程序 来 模拟 这 个 过 程 ， 程 序 会 把 不 同类 型 的 巧克力 添加 到 一 个 
Redis 列表 中 ， 露 西 是 一 个 客户 端 ， 对 列表 执行 阻塞 的 弹出 操作 。 她 需要 0.5 秒 来 处 理 
一 块 巧克力 。 打 印 出 时 间 和 露 西 处 理 的 每 块 巧克力 类 型 以 及 剩余 巧克力 的 数量 。 

(5) 使 用 ZeroMQ 发 布 第 7 章 练习 (7) 中 的 诗 (参见 7.3 节 )， 每 次 发 布 一 个 单词 。 写 一 个 
ZeroMQ 客户 端 来 打印 出 每 个 以 元 音 开 头 的 单词 ， 再 写 另 一 个 客户 端 来 打印 出 所 有 长 度 
为 5 的 单词 。 忽 略 标点 符号 。 
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第 12 章 


成 为 真正 的 Python 开 发 者 





“ 想 回 到 过 去 接 年 轻 的 自己 吗 ? 选择 软件 开发 作为 你 的 事业 吧 ! ” 
一 一 Bliot Loh ( https://twitter.conyloh/status/411282297816498176 ) 


本 章 会 介绍 Python 开发 中 的 世 术 和 科学 ， 还 有 一 些 “ 最 住 实践 ”。 掌 握 它们 之 后 ， 你 就 可 
以 成 为 一 个 正牌 的 Python 开发 者 。 


12.1 关于 编程 


首先 是 一 些 基 于 我 个 人 经 历 的 和 编程 相关 的 建议 。 

最 初 我 准备 走 科学 这 条 路 ， 我 自学 了 编程 来 分 析 和 展示 实验 数据 。 我 以 为 计算 机 编程 和 会 计 
一 样 一 一 准确 但 是 无 聊 。 当 我 发 现 自己 真正 享受 这 个 过 程 时 非常 惊讶 。 部 分 乐趣 来 自 逻 辑 方 
面 ， 就 像 解 开 谜 题 一 样 ， 但 是 还 有 一 部 分 是 创造 力 。 你 必须 正确 地 编写 程序 才能 得 到 正确 的 
结果 ， 但 是 可 以 用 任何 喜欢 的 方式 来 完成 它 。 这 是 一 种 不 寻常 的 左右 脑 平 衡 思考 训练 。 

在 掉 进 编程 这 个 大 坑 后 ， 我 发 现 这 个 领域 有 很 多 方向 ， 每 个 方向 都 有 很 多 不 同 的 任务 和 不 
同 的 人 。 你 可 以 选择 计算 机 图 形 学 、 操 作 系统 、 商 业 应 用 ， 甚 至 科学 。 


如 有 果 你 是 一 个 程序 员 ， 可 能 也 有 类 似 的 经 历 。 如 果 你 不 是 ， 或 许 应 该 尝试 一 下 编程 ， 看 看 
是 否 符合 你 的 个 性 ， 至 少 也 可 以 帮 你 完成 一 些 工 作 。 就 像 我 在 本 书 前 面 提 到 的 一 样 ， 数 学 
能 力 并 不 是 那么 重要 。 看 起 来 逻辑 思考 的 能 力 最 重要 ， 语 言 能 力也 很 有 和 用。 最后， 耐心 很 
重要 ， 尤 其 是 寻找 代码 中 的 bug 时 。 


12.2 “寻找 Python 代码 


你 需要 开发 功能 时 ， 最 快 的 解决 方法 就 是 “ 偷 ”。 好 吧 …… 是 从 一 个 经 过 允许 的 来 源 
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“ 偷 ” 代 码 。 

Python 标准 库 (http://docs.python.org/3/library/) 既 宽 又 深 而 且 特 别 整洁 。 深 入 进去 能 学 
到 很 多 东西 。 

就 像 各 种 体育 运动 的 名 人 泻 一 样 ， 一 个 模块 需要 经 过 时 间 的 检验 才能 加 入 标准 库 。 新 的 包 
一 直 在 出 现 ， 本 书 已 经 介绍 过 一 些 ， 它 们 有 的 能 做 一 些 新 的 东西 ， 有 些 可 以 更 好 地 完成 旧 
的 工作 。Python 的 广告 语 是 内 置 电 池 (batteries included) ， 但 你 可 能 需要 一 种 新 电池 。 
所 以 ， 除 了 标准 库 之 外 ， 还 能 去 哪儿 寻找 优秀 的 Python 代码 呢 ? 

首先 要 推荐 的 就 是 Python 包 索 引 (PyPi，https://pypi.python.org/pypi)。 之 前 被 命名 为 巨峰 
剧团 中 的 奶酪 店 (Cheese Shop)。 这 个 网 站 上 的 Python 包 一 直 在 更 新 ， 我 编写 本 书 时 已 经 
超过 了 39 000 个 。 当 你 使 用 pip (参见 下 一 节 ) 时 它 就 会 搜索 PyPi。PyPi 的 主页 显示 的 是 
最 近 添 加 的 包 。 你 也 可 以 直接 搜索 。 举 例 来 说 ， 表 12-1 列 出 了 genealogy 的 搜索 结果 。 

表 12-1: PyPi 中 搜索 genealogy 的 结果 




































































包 权重 描述 

Gramps 3.4.2 5 分 析 、 组 织 并 分 享 你 的 家 谱 

python-fs-stack 0.2 2 Python 封装 过 的 所 有 FamilySearch API 

human-names 0.1.1 1 人 名 

nameparser 0.2.8 1 一 个 简单 的 Python 模块 ， 用 于 将 人 名 解析 成 具体 的 组 成 部 件 





























最 匹配 的 包 权 重 最 高 ， 因 此 Gramps 看 起 来 最 符合 要 求 。 可 以 去 Python 网 站 (https://pypi. 
python.org/pypi/Gramps/3.4.2) 来 查看 文档 和 下 载 链接 。 


另 一 个 很 流行 的 仓库 是 GitHub。 可 以 在 “流行 ”(https://github.com/trending?1l=python) 中 
查看 当前 流行 的 Python 包 。 


流行 Python 菜谱 (http://code.activestate.com/recipes/langs/python/) 有 4000 多 个 短 Python 
程序 ， 涉 及 多 个 方 再 


mi >] 二 
12.3 ”安装 包 
有 3 种 安装 Python 包 的 方法 : 
。 推荐 使 用 pip， 你 可 以 使 用 pip 来 安装 绝 大 多 数 Python 包 ; 
。 有 时 可 以 使 用 操作 系统 自 带 的 包 管理 工具 ， 
。 从 源 代码 安装 。 
如 果 你 对 同一 个 领域 的 多 个 包 感 兴趣 ， 或 许可 以 找到 一 个 包含 这 些 包 的 Python 发 行 版 。 举 
例 来 说 ， 在 附录 C 中 ， 可 以 使 用 一 系列 数学 和 科学 程序 ， 如 果 和 手动 安装 很 麻烦 ， 可 以 使 用 
类 似 Anaconda 这 样 的 发 行 版 。 


12.3.1 使 用 pip 
Python 的 包 有 一 些 限制 。 之 前 有 一 个 安装 工具 叫 easy_install， 现 在 已 经 被 pip 替代 了 ， 
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但 是 它们 都 没有 成 为 标准 的 Python 安装 工具 。 如 果 想 使 用 ptp， 如 何 安 装 它 呢 ? 从 Python 
3.4 开始 ，pip 终于 成 为 了 Python 的 一 部 分 ， 避 免 了 不 必要 的 步骤 。 如 果 使 用 的 是 Python 3 
之 前 的 版 本 并 且 没 有 ptp， 那 你 可 以 从 http://www.pip-installer.org 下 载 。 
pip 最 简单 的 使 用 方法 就 是 通过 下 面 的 命令 安装 一 个 包 的 最 新 版 : 

$ pip install flask 
你 会 看 到 详细 的 安装 过 程 ， 这 样 就 可 以 确保 安装 正常 进行 下载， 运行 setup.py， 在 硬盘 
上 安装 文件 ， 等 等 。 
也 可 以 要 求 pip 安装 指定 的 版 本 : 

$ pip install flask==0.9.0 
或 者 指定 最 小 版 本 ( 当 你 必须 使 用 的 一 些 特性 在 某 个 版 本 之 后 开始 出 现时 ， 这 个 功能 特别 
有 用 ) : 

$ pip install 'fLask>=0.9.0' 
在 这 条 命令 中 ， 单 引号 可 以 防止 shell 把 > 解析 成 输出 重 定向 ， 那 样 会 把 输出 写 和 一 个 名 为 
=0.9.0 的 文件 中 。 
如 果 你 想 安装 多 个 Python 包 ， 可 以 使 用 requirements 文件 (https://pip.pypa.io/en/latest/refe- 
rence/pip_install.html#requirements-file-format)。 虽 然 它 有 很 多 选项 ， 但 是 最 简单 的 使 用 方 
法 是 列 出 所 有 包 ， 一 个 包 一 行 ， 加 上 可 选 的 目标 版 本 或 者 相对 版 本 : 


$ pip -r requirements.txt 















































你 的 示例 requirements.txt 文件 可 能 是 这 样 : 
flask==0.9.0 
django 
psycopg2 


12.3.2 ”使 用 包 管 理工 具 


苹果 的 OS X 中 有 第 三 方 包 管理 工具 homebrew (brew，http://brew.sh/) 和 ports (http:/www:. 
macports.org/) 。 它 们 的 原理 和 pip 类 似 ， 但 并 不 是 只 能 安装 Python 包 。 


Linux 的 不 同 发 行 版 有 不 同 的 包 管理 工具 ， 最 流行 的 是 apt-get、yum、dpkg 和 zypper。 


Windows 有 Windows 安装 工具 ， 需 要 后 级 为 .msi 的 包 文 件 。 如 果 想 在 Windows 上 安装 
Python， 那 可 能 就 是 MSI 格式 的 。 


12.3.3 ”从 源 代码 安装 


有 时 候 ， 一 个 Python 包 是 新 出 的 ， 或 者 作者 还 没有 把 它 发 布 到 pip 上 。 如 有 果 要 安装 这 样 的 
包 ， 通 常 需要 这 样 做 : 
(DD) 下 载 代码 ， 
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(2) 如 果 是 压缩 文件 ， 使 用 zip、tar 或 者 其 他 合适 的 工具 来 解压 缩 ; 
(3) 在 包含 setup.py 文件 的 目录 中 运行 python instaLL setup.py。 





下 载 和 安装 时 一 定 要 小 心 。 虽 然 在 Python 程序 中 加 入 病毒 难度 不 小 (因为 这 
些 程序 是 可 读 的 文本 )， 有 时 还 是 会 遇 到 有 毒 的 程序 。 





12.4 ”集成 开发 环境 

我 编写 本 书 中 的 软件 时 使 用 的 是 纯 文本 编辑 器 ， 但 是 你 不 一 定 非 要 在 命令 行 窗口 或 者 纯 广 
本 编辑 器 中 写 代码 。 有 许多 免费 和 收费 的 集成 开发 环境 (IDE) ， 它 们 有 图 形 窗口 (GUD 
并 且 支持 文本 编辑 器 、 调 试 器 、 库 搜索 ， 等 等 





12.4.1 IDLE 


IDLE (https://docs.python.org/3/library/idle.html) 是 唯一 一 个 标准 发 行 版 中 包含 的 Python 
IDE。 它 是 基于 tkinter 开发 的 ， 图 形 界面 比较 简单 。 














12.4.2 PyCharm 

PyCharm (http://www.jetbrains.com/pycharm/) 是 一 个 新 出 的 IDE， 有 许多 特性 。 社 区 版 
是 免费 的 ， 你 也 可 以 使 用 学 生 身 份 或 者 开源 项 目 来 获取 免费 的 专业 版 许可 。 图 12-1 是 初 
始 界 面 。 























@ Welcome to PyCharm Community Edition 


Recent Projects Quick Start 
= 
[这 Create New Project 
-一 
No Project Open Yet Em Open Directory 
号 Check out from Version Control 
总 Configure 


ry 
EY Docs and How-Tos 


PyCharm Community Edition 3.1.2 Build 133.1229. Check for updates now. 











12-1: PyCharm 的 初始 界面 
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12.4.3 lIPython 
IPython (http://ipython.org/) 在 附录 C 中 有 介绍 ， 既 是 一 个 发 布 平台 也 是 一 个 扩展 IDE。 


12.5 命名 和 文档 


你 绝对 记 不 住 自己 写 过 什么 。 很 多 次 我 看 着 自己 最 近 写 的 代码 ， 心 里 想 的 是 : 它们 到 底 是 
从 哪儿 来 的 。 这 就 是 文档 的 重要 性 。 文 档 可 以 包括 注释 和 文档 字符 串 ， 也 可 以 把 信息 记录 
在 变量 名 、 函 数 名 、 模 块 名 和 类 名 中 。 不 要 像 下 面 这 样 哆 嗪 : 


>>> # 这 里 我 要 给 变量 "num" 赋 值 10: 
... Num = 10 
>>> # 我 希望 它 确实 赋值 成 功 了 
. print(num) 
10 
>>> # 好 的 


相反 ， 要 说 清楚 为 什么 要 赋值 0， 为 什么 变量 名 是 num。 如 果 在 编写 华氏 到 摄氏 度 的 转换 ， 
那 应 该 让 变量 名 自己 表达 它们 的 意义 ， 而 不 是 写 一些 魔 法 代码 。 加 一 些 测 试 更 好 : 


def ftoc(f_temp): 
"把 华氏 温度 <f_temp> 转 换 为 摄氏 温度 并 返回 " 
f_boil temp = 212.0 
f_freeze temp = 32.0 
C_boil temp = 100.0 
c_freeze temp = 0.0 
f_range = f_boil temp - f freeze_temp 
c_range = c_boil temp - c_freeze temp 
f_c ratio = c_range / f_range 
Cc_ temp = (f_temp - f_freeze temp) * fc ratio + c freeze temp 
return c_temp 
































if _ name == '_ main _': 
for f_temp in [-40.0, 0.0, 32.0, 100.0, 212.0]: 
c_temp = ftoc(f_temp) 
print('%f F => %f C' % (f_temp, c_temp)) 


运行 测试 ， 
$ python ftoc1.py 


-40.000000 F => -40.000000 C 
0.000000 F => -17.777778 C 
32.000000 F => 0.000000 C 
100.000000 F => 37.777778 C 
212.000000 F => 100.000000 C 


这 段 代 码 (至 少 ) 有 两 处 可 以 改进 的 地 方 。 


。 Python 没有 常量 ， 但 是 PEP8 格 式 规 范 建议 (http://legacy.python.org/dev/peps/pep- 
0008/#constants) 使 用 大 写字 母 和 下 划 线 (比如 ALL_CAPS) 来 表示 常量 名 。 我 们 据 此 修改 
示例 中 的 常量 。 
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。 我 们 基于 常量 值 提 前 进行 了 一 些 计算 ， 应 该 把 它们 移动 到 模块 顶层 ， 这 样 它们 就 只 会 计 
算 一 次 ， 否 则 每 次 调用 ftoc() 时 都 需要 计算 。 


修改 后 的 版 本 如 下 所 示 : 


F_BOIL_TEMP = 212.0 
F_FREEZE_TEMP = 32.0 

C_BOIL_TEMP = 100.0 

C_FREEZE_TEMP = 0.0 

F_RANGE = F_BOIL TEMP - F_FREEZE_TEMP 
C_RANGE = C_BOIL TEMP - C_FREEZE_TEMP 
F_C_RATIO = C_RANGE / F_RANGE 


def ftoc(f_temp): 
"把 华氏 温度 <f_temp> 转 换 为 摄氏 温度 并 返回 " 
c_temp = (f_temp - F_FREEZE TEMP) * F_C_RATIO + C_FREEZE_TEMP 
return c_temp 








if _ name _ == '_ main _ 


for f_temp in [-40.0, 0.0, 32.0, 100.0, 212.0]: 
c_temp = ftoc(f_temp) 
print('%f F => %f C' % (f_temp, c_temp)) 


12.6 测试 代码 


有 时 候 ， 我 会 修改 一 些 代 码 ， 然 后 对 自己 说 :“ 看 起 来 设 问题 ， 发 布 吧 。” 接 着 程序 就 出 问 
题 了 。 唉 ， 每 次 遇 到 这 种 情况 时 〈 还 好 这 种 情况 已 经 越 来 越 少 了 ) ， 我 都 觉得 自己 是 个 条 
蛋 并 发 誓 下 次 要 写 更 多 的 测试 。 
测试 Python 程序 最 简单 的 办 法 就 是 添加 一 些 print() 语句 。Python 交互 式 解释 器 的 读 取 - 
求 值 -打印 循环 (REPL) 允许 快速 添加 和 测试 修改 。 然 而 ， 你 或 许 不 会 想 要 在 产品 级 代 
码 中 添加 print() 语句 ， 因 此 需要 记 住 自己 添加 的 所 有 print() 语句 并 在 最 后 删除 它们 。 
但 是 ， 这 样 做 很 容易 出 现 剪 切 - 粘贴 错误 。 


12.6.1 使 用 pylint、pyflakes 和 pep8 检 查 代码 


在 创建 真实 的 测试 程序 之 前 ， 需 要 运行 Python 代码 检查 器 。 最 流行 的 是 pyLtnt (http:// 
www.pylint.org/) 和 pyflakes (https://pypi.python.org/pypi/pyflakes/)。 你 可 以 使 用 pip 来 安 
装 它们 : 

$ pip install pylint 

$ pip install pyflakes 
它们 可 以 检查 代码 错误 (比如 在 赋值 之 前 引用 变量 ) 和 代码 风格 问题 (就 像 穿 着 格子 衣服 
和 条 纹 衣 服 一 样 ) 。 下 面 是 一 段 毫 无 意义 的 程序 ， 有 一 个 bug 和 一 个 风格 问题 : 

a=1 

b=2 

print(a) 

print(b) 

print(c) 
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下 面 是 pyLint 输出 内 容 的 一 部 分 : 


$ pylint styLel.py 











No config file found, using default configuration 

类 火炎 火 火 淡淡 火炎 类 火炎 类 Module stylel1 

C: 1,0: Missing docstring 

C: 1,0: Invalid name "a" for type constant 
(should match CLA LA: 2Z0-9_]*)|( _.* _ ))$) 

C: 2,0: Invalid name "b" for type constant 
(should match (([A-z_][A-z0-9_]*)|(_ _.* _))$) 

E: 5,6: Undefined variable 'c' 


往 下 翻 ，Global evaluation 下 面 是 我 们 的 分 数 (最 高 为 10.0) : 


Your code has been rated at -3.33/10 


好 吧 。 我 们 首先 来 修复 bug。pytint 输出 中 以 E 开 头 的 表示 这 是 一 个 Error (错误 )， 原因 
是 我 们 在 给 c 赋值 之 前 打印 了 它 。 修 复 一 下 : 


a=1 
b=2 
C=3 
print(a) 
print(b) 
print(c) 




















$ pylint style2.py 


No config file found, using default configuration 

类 火炎 火 火 炎炎 火炎 炎炎 类 类 Module style2 

C: 1,0: Missing docstring 

C: 1,0: Invalid name "a" for type constant 
(should match i 70-9_]*)|(__.*__))$) 

C: 2,0: Invalid name "b" for type constant 
(should match (([A-z_][A-z0-9_]*)|(_ _.* _))$) 

C: 3,0: Invalid name "c" for type constant 
(should match (CIA-z ][A- Z0-9_]*)|( _.*_  ))$) 


好 的 ， 没 有 E 了 ， 分 数 也 从 -3.33 变 成 了 4.29: 


Your code has been rated at 4.29/10 


pylint 需要 一 个 文档 字符 串 (出 现在 模块 或 者 函数 内 部 第 一 行 的 一 段 短文 本 ， 用 来 描述 代 
码 )， 而 且 它 认为 短 变 量 名 a、b 和 c 太 土 了 。 我 们 来 让 pylint 高 兴 点 儿 ， 把 style2.py 修改 
为 style3.py: 


"这 里 是 模块 文档 字符 串 " 


def func(): 
"函数 的 文档 字符 串 在 这 里 。 妈 妈 我 在 这 儿 ! " 
first = 1 
second = 
third = 3 
print(first) 
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print(second) 
print(third) 


func() 

$ pylint style3.py 

No config file found, using default configuration 
嘿 ， 没 有 任何 抱怨 了 。 我 们 的 分 数 呢 ? 

Your code has been rated at 10.00/10 


还 可 以 ， 是 吧 ? 





另 一 个 格式 检查 工具 是 pep8 (https:/pypi.python.org/pypijpep8) ， 可 以 使 用 熟悉 的 方式 安装 ， 


$ pip install pep8 
它 对 我 们 的 代码 有 何 意见 呢 ? 
$ pep8 style3.py 


style3.py:3:1: E302 expected 2 blank lines, found 

















1 


为 了 满足 格式 要 求 ， 它 建议 我 在 文档 字符 串 后 面 添 加 一 个 空 行 。 


12.6.2 ”使 用 unittest 进 行 测 试 


我 们 已 经 通过 了 代码 风格 的 考验 ， 下 面 该 真正 地 测试 程序 逻辑 了 。 

最 好 先 编写 独立 的 测试 程序 ， 在 提交 代码 到 源码 控制 系统 之 前 确保 通过 所 有 测试 。 写 测试 
看 起 来 是 一 件 很 麻烦 的 事 ， 但 是 它们 真 的 能 帮助 你 更 快 地 发 现 问 题 ， 尤 其 是 回归 测试 ( 破 
坏 之 前 还 能 正常 工作 的 代码 )。 工 程 师 们 已 经 从 惨痛 的 经 历 中 领悟 到 一 个 真理 : 即使 是 很 





























小 的 看 起 来 设 有 任何 问题 的 改动 ， 也 可 能 出 问题 。 如 果 
它们 大 多 都 有 测试 集 。 


看 那些 优秀 的 Python 包 就 会 发 现 ， 





标准 库 中 有 两 个 测试 包 。 首 先 介绍 unittest。 假 设 我 们 编写 了 一 个 单词 首 字 母 转 大 写 的 模 
块 ， 第 一 版 直接 使 用 标准 字符 串 函 数 capitalize()， 之 后 会 看 到 许多 意料 之 外 的 结果 。 把 














下 面 的 代码 保存 为 cap.py: 


def just do it(text): 
return text.capitalize() 


测试 就 是 先 确 定 输入 对 应 的 期 望 输出 (本 例 期 望 的 输 H 



































是 输入 文本 的 首 字母 大 写 版 本 )， 


然后 把 输入 传 入 需要 测试 的 函数 ， 并 检查 返回 值 和 期 望 输出 是 否 相 同 。 期 望 输出 被 称 为 断 
言 ， 因 此 在 unittest 中 ， 可 以 使 用 assert (断言 ) 开头 的 方法 来 检查 返回 的 结果 ， 比 如 下 





下 代码 中 的 assertEqual 方法 。 
把 下 面 的 测试 脚本 保存 为 test_cap.py: 


import unittest 
import cap 
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CLass TestCap(unittest.TestCase): 


def setUp(seLf ) : 
pass 


def tearDown(self): 
pass 


def test_ one word(self): 
text = 'duck' 
result = cap.just do it(text) 
self.assertEqual(result, 'Duck') 


def test multiple words(self): 
text = 'a veritable flock of ducks' 
result = cap.just_do it(text) 
self.assertEqual(result, 'A Veritable Flock Of Ducks') 


if _ name == ' main 
unittest.main() 


setUp() 方法 会 在 每 个 测试 方法 执行 之 前 执行 ，tearDown() 方法 是 在 每 





个 测试 方法 执行 


之 后 执行 。 它 们 通常 用 来 分 配 和 回收 测试 需要 的 外 部 资源 ， 比 如 数据 库 连 接 或 者 一 些 测 














试 数据 。 在 本 例 中 ， 我 们 的 测试 方法 已 经 足够 进行 测试 ， 因 此 不 需要 再 


定义 setUup() 和 





tearDown()， 但 是 放 一 个 空 方法 也 没关系 。 我 们 测试 的 核心 是 函数 te 


st_one_word() 和 





test_multiple_words()。 它 们 会 运行 我 们 定义 的 just_do_it() 函数 ， 传 入 不 同 的 输出 并 检 


查 返回 值 是 否 和 期 望 输出 一 样 。 
运行 一 下 这 个 脚本 ， 它 会 调用 那 两 个 测试 方法 : 


$ python test_cap.py 











FAIL: test multiple words (_ main__.TestCap) 


Traceback (most recent call last): 
File "test _ cap.py", line 20, in test_ multiple words 
self.assertEqual(result, 'A Veritable Flock Of Ducks') 


AssertionError: 'A veritable flock of ducks' != 'A Veritable Flock Of Ducks' 


- A veritable flock of ducks 


八 八 八 八 


? 
+ A Veritable Flock Of Ducks 
了 


Ran 2 tests in 0.001s 


FAILED (failures=1) 


看 起 来 第 一 个 测试 (test_one_word) 通过 了 ,但 是 第 二 个 (test_multiple_words) 失败 
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了 。 上 箭头 〈^) 指出 了 字符 串 不 相同 的 地 方 。 

为 什么 多 个 单词 会 失败 ?可 以 阅读 string 的 capitalize (https://docs.python.org/3/library/ 
stdtypes.html#str.capitalize) 国 数 文档 来 寻找 线索 : 它 只 会 把 第 一 个 单词 的 第 一 个 字母 转 成 
大 写 。 或 许 我 们 应 该 先 阅读 文档 。 

为 了 修复 错误 ， 我 们 需要 另 一 个 函数 。 往 下 翻 一 翻 网 页 ， 可 以 看 到 title() 函数 (https://docs. 
python.org/3/library/stdtypes.html#str.title) 。 我 们 把 cap.py 中 的 capitalize() 赫 换 成 title(): 


def just do it(text): 
return text.title() 


再 次 运行 测试 ， 看 看 结果 如 何 : 


$ python test_cap.py 








Ran 2 tests in 0.000s 
OK 


看 起 来 没 问题 了 。 不 过 ， 其 实 还 是 有 问题 的 。 我 们 还 需要 在 test_cap.py 中 添加 另 一 个 方法 : 


def test words with_apostrophes(self): 
text = "I'm fresh out of ideas" 
result = cap.just_do it(text) 
self.assertEqual(result, "I'm Fresh Out Of Ideas") 





$ python test_cap.py 


Traceback (most recent call last): 
File "test _ cap.py", line 25, in test words_ with_apostrophes 
self.assertEqual(result, "I'm Fresh Out Of Ideas") 
AssertionError: "I'M Fresh Out Of Ideas" != "I'm Fresh Out Of Ideas" 
- I'M Fresh Out Of Ideas 


7 入 


+ I'm Fresh Out Of Ideas 


? 八 
Ran 3 tests in 0.001s 
FAILED (failures=1) 


国 数 把 Im 中 的 m 大 写 了 。 浏 览 一 下 titte() 的 文档 会 发 现 ， 它 不 能 处 理 撒 号 。 我 们 真得 
应 该 先 完 整地 阅读 一 遍 文 档 。 

















在 标准 库 string 文档 的 底部 有 另 一 个 国 数 : 一 个 名 为 capwords() 的 辅助 函数 。 试 试 这 个 : 


def just do it(text): 
from string import capwords 
return capwords(text) 





$ python test_cap.py 


Ran 3 tests in 0.004s 
OK 


终于 完成 了 ! 呢 ， 还 有 问题 。 向 test_cap.py 中 再 加 一 个 测试 : 


def test_words_with_quotes(seLf) : 
text = "\"You're despicable,\" said Daffy Duck" 
result = cap.just do it(text) 
self.assertEqual(result, "\"You're Despicable,\" Said Daffy Duck") 


能 通过 吗 ? 


$ python test_cap.py 





FAIL: test words with quotes (__main__.TestCap) 


Traceback (most recent call last): 
File "test cap.py", line 30, in test words with_quotes 
self.assertEqual(result, "\"You're 
Despicable,\" Said Daffy Duck") 
AssertionError: '"you\'re Despicable," Said Daffy Duck' 
!= '"You\'re Despicable," Said Daffy Duck' 
- "you're Despicable," Said Daffy Duck 
7 人 


+ "You're Despicable," Said Daffy Duck 


7 人 


Ran 4 tests in 0.004s 

FAILED (failures=1) 
似乎 第 一 个 双 引 号 并 没有 被 目前 为 止 最 好 用 的 函数 capwords 正确 处 理 。 它 试 着 把 " 转 成 大 
写 ， 并 把 其 他 内 容 转 成 小 写 (You' re)。 此 外 ， 字 符 串 的 其 余部 分 应 该 保持 不 变 。 
做 测试 的 人 可 以 发 现 这 些 边界 条 件 ， 但 是 开发 者 在 面 对 自己 的 代码 时 通常 有 盲区 。 


unittest 提供 了 数量 不 多 但 非常 有 用 的 断言 ， 你 可 以 用 它们 检查 值 、 确 保 类 能 够 匹配 、 判 
断 是 否 触发 错误 ， 等 等 。 


























x 
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12.6.3 ”使 用 doctest 进 行 测试 


标准 库 中 的 第 二 个 测试 包 是 doctest (https:Wdocs.python.org/3/library/doctesthtml) 。 使 用 这 
个 包 可 以 把 测试 写 到 文档 字符 串 中 ， 也 可 以 起 到 文档 的 作用 。 它 看 起 来 有 点 像 交 互 式 解释 
器 : 字符 >>> 后 面 是 一 个 函数 调用 ， 下 一 行 是 执行 结果 。 你 可 以 在 交互 式 解 释 器 中 运行 测 
试 并 把 结果 粘贴 到 测试 文件 中 。 我 们 修改 一 下 cap.py (暂时 不 考虑 那个 双 引 号 的 问题 ) : 


def just do it(text): 









































>>> just_do_it('duck') 
"DucKk 
>>> just do it('a veritable flock of ducks') 
'A Veritable Flock Of Ducks' 
>>> just do _it("I'm fresh out of ideas") 
"I'm Fresh Out Of Ideas" 
from string import capwords 
return capwords(text) 

if _ name == '__ main _': 
import doctest 
doctest. testmod() 


运行 时 如 果 测 试 全 部 通过 不 会 产生 任何 输出 : 
$ python cap.py 
加 上 元 杂 选 项 〈-v) ， 看 看 会 出 现 什么 : 


$ python cap.py -v 




















ey 


Trying: 
just_do it('duck') 
Expecting: 
“Duck 
ok 
Trying: 
just_do it('a veritable flock of ducks') 
Expecting: 
'A Veritable FLock Of Ducks' 
ok 
Trying: 
just_do it("I'm fresh out of ideas") 
Expecting: 
"I'm Fresh Out Of Ideas" 
ok 
1 items had no tests: 
__main __ 
1 items passed all tests: 
3 tests in _ main__.just do it 
3 tests in 2 items. 
3 passed and 0 failed. 
Test passed. 





12.6.4 ”使 用 nose 进 行 测试 


第 三 方 包 nose (https://nose.readthedocs.org/en/latest/) 和 unittest 类 似 。 下 面 是 安装 命 邻 : 


$ pip install nose 


不 需要 像 使 用 unittest 一 样 创建 一 个 包含 测试 方法 的 类 。 任 何 名 称 中 带 test 的 函数 都 会 


被 执行 。 





我 们 修改 一 下 之 前 的 unittest 示例 并 保存 为 test_cap_nose.py: 


import cap 
from nose.tools import eq_ 


def 


def 


def 


def 


,pp 


test_one_word(): 

text = “duck' 

result = cap.just_ do it(text) 
eq_(result, 'Duck') 


test_multiple words(): 

text = 'a veritable flock of ducks' 
result = cap.just_ do it(text) 

eq_(result, 'A Veritable FLock Of Ducks') 


test_words_with_apostrophes(): 

text = "I'm fresh out of ideas" 
result = cap.just_ do it(text) 
eq_(result, "I'm Fresh Out Of Ideas") 


test_words_ with_ quotes(): 

text = "\"You're despicable,\" said Daffy Duck" 
result = cap.just do it(text) 

eq_(result, "\"You're Despicable,\" Said Daffy Duck") 


运行 济 试 : 


$ nosetests test cap_nose.py 


Traceback (most recent call last): 


AssertionError: 


File "/Users/.../site-packages/nose/case.py", line 198, in runTest 


self.test(*self.arg) 
eq_(result, "\"You're Despicable,\" Said Daffy Duck") 


'"you\'re Despicable," Said Daffy Duck' 
!= '"You\'re Despicable," Said Daffy Duck' 


Ran 4 tests in 0.005s 


FAILED (failures=1) 


这 和 我 们 使 用 unittest 进行 测试 得 到 的 错误 一 样 。 幸 运 的 是 ， 在 本 章 结尾 的 练习 中 ， 我 们 


会 修复 它 。 


File "/Users/.../book/test cap_nose.py", line 23, in test words with quotes 
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12.6.5 ”其 他 测试 框架 


出 于 某 些 原因 ， 开 发 者 会 编写 Python 测试 框架 。 如 果 你 很 感 兴 趣 ， 可 以 试 试 tox (http:/ 
tox.readthedocs.org/en/latest/) 和 py.test (http://pytest.org/latest/)。 


12.6.6 ”持续 集成 
当 你 的 团队 每 天 会 产生 很 多 代码 时 ， 就 需要 在 出 现 改 动 时 进行 自动 测试 。 你 可 以 让 源码 控 
制 系 统 ， 在 提交 代码 时 进行 自动 化 测试 。 这 样 每 个 人 都 知道 是 谁 破 坏 了 构建 并 消失 在 吃 午 
饭 的 人 群 中 。 
这 些 系统 很 庞大 ， 我 不 会 在 这 里 介绍 安装 和 使 用 方法 。 如 果 某 一 天 ， 你 需要 用 到 它们 ， 至 
少 知道 可 以 去 哪儿 找 。 
。 buildbot (http://buildbot.net/) 
用 Python 写成 的 源码 控制 系统 ， 可 以 自动 构建 、 测 试 和 发 布 。 
。 jenkins (http://jenkins-ci.org/) 
用 Java 写成 ， 应 该 是 目前 最 受 欢 迎 的 CI (持续 集成 ) 系统 。 
。 travis-ci (http://travis-ci.com/) 
这 个 自动 化 项 目 托管 在 GitHub 上 ， 对 开源 项 目 是 免费 的 。 


12.7 调试 Python 代码 


“调试 的 难度 是 写 代码 的 两 倍 。 以 此 类 推 ， 如 果 你 绞 尽 脑汁 编写 巧妙 的 代码 ， 那 
你 一 定 无 法 调试 它 。 












































Brian Kernighan 
测试 先行 。 测 试 越 完善 ， 之 后 需要 修复 的 bug 越 少 。 不 过 ，bug 总 是 无 法 避免 的 ， 发 现 
bug 就 要 去 修复 它 。 之 前 就 说 过 ，Python 中 最 简单 的 调试 方法 就 是 打印 字符 串 。vars() 是 
非常 有 用 的 一 个 函数 ， 可 以 提取 本 地 变量 的 值 ， 包 括 国 数 参数 : 


>>> def func(*args, **kwargs): 
print(vars()) 





3 func(1, 2, 3) 
{'args': (1, 2, 3), 'kwargs': {}} 
>>> func(['a', 'b', 'argh'] 
{'args': (['a', 'b', 'argh'],), 'kwargs': {}} 
就 像 4.9 节 介 绍 的 ， 装 饰 器 可 以 在 不 修改 函数 代码 的 前 提 下 ， 在 函数 运行 之 前 或 者 之 后 执 
行 其 他 代码 。 这 意味 着 你 可 以 使 用 装饰 器 在 任何 Python 函数 (不 仅 是 你 自己 写 的 函数 ) 之 
前 或 者 之 后 做 一 些 事情 。 我 们 定义 一 个 装饰 器 dump， 它 可 以 打印 出 输入 的 参数 和 函数 的 返 
回 值 (对 设计 师 来 说 ， 垃 圾 堆 通常 需要 装饰 一 下 ') : 


- 























注 1: dump 的 意思 是 倾倒 垃圾 ， 在 计算 机 中 是 一 个 常用 的 术语 ， 用 来 打印 一 些 信息 。 一 一 译 者 注 
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def dump(func): 

"打印 输入 参数 和 输出 值 " 

def wrapped(*args, **kwargs): 
print("Function name: %s" % func._ name__) 
print("Input arguments: %s" % ' '.join(map(str, args))) 
print("Input keyword arguments: %s" % kwargs.items()) 
output = func(*args, **kwargs) 
print("Output:", output) 
return output 

return wrapped 


下 面 是 被 装饰 函数 。 这 个 函数 名 为 double()， 接 收 带 名 称 和 不 带 名 称 的 数值 参数 ， 把 它们 
的 值 乘 2 并 放 到 一 个 列表 中 返回 : 


from dump1 import dump 





@dump 
def double(*args, **kwargs): 
[= 每 个 参数 乘 2 册 
output_List = [ 2 * arg for arg in args ] 
output dict = { k:2*v for k,v in kwargs.items() } 
return output_ list, output dict 


if _ name == '_ main _': 
output = double(3, 5, first=100, next=98.6, last=-40) 
运行 结果 : 


$ python test_dump.py 


Function name: double 

Input arguments: 3 5 

Input keyword arguments: dict items([('last', -40), ('first', 100), 
('next', 98.6)]) 

Output: ([6, 10], {'last': -80, 'first': 200, 'next': 197.2}) 


12.8 使 用 pdb 进行 调试 


上 面 提 到 的 技能 很 有 用 ， 但 仍然 无 法 代替 真正 的 调试 器 。 大 多 数 IDE 都 自 带 了 调试 器 ， 
有 各 种 各 样 的 特性 和 用 户 界面 。 这 里 ， 我 会 介绍 标准 的 Python 调试 器 pdb (https://docs. 
python.org/3/library/pdb.htm!l ) 。 























如 果 使 用 -i 标志 运行 程序 ， 出 现 错误 时 Python 会 自动 进入 交互 式 解释 器 。 





下 面 来 看 一 个 在 处 理 某 些 数据 时 存在 bug 的 程序 ， 这 种 bug 很 难 发 现 。 这 是 计算 机 早期 出 
现 的 一 个 真实 的 bug， 困扰 了 程序 员 们 很 长 时 间 。 


我 们 需要 从 一 个 文件 中 读 出 国家 和 它们 的 首都 ， 它 们 由 逗号 分 割 : 首都 ， 国 家 。 它 们 的 大 
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小 写 可 能 不 正确 ， 在 输出 时 需要 修复 这 个 问题 。 哦 ， 还 有 可 能 出 现 多 余 的 空白 ， 需 要 正确 
处 理 。 最 后 ， 虽 然 程序 知道 是 否 到 达 文 件 结尾 ， 出 于 某 些 原因 ， 我 们 的 领导 希望 在 遇 到 音 
词 qutt 时 终止 程序 (大 小 写 可 能 不 正确 )。 下 面 是 数据 文件 示例 ， 


France，Paris 
venuzueLa ,Caracas 
LithuniA,vilnius 
quit 


我 们 来 设计 一 下 算法 (解决 问题 的 方法 )。 下 面 是 伪 代 码 ， 它 看 起 来 像 一 个 程序 ， 其 实 只 
是 用 普通 的 语言 来 描述 逻辑 ， 还 需 ;要 续 换 站 真实 的 程序 。 和 序 员 喜 欢 Python 的 一 个 原因 就 
是 它 看 起 来 很 像 伪 代码 ， 因 此 把 伪 代 码 转 换 成 真正 的 程序 比较 简单 : 


for each line in the text file: 

read the line 

strip leading and trailing spaces 

if 'quit' occurs in the lower-case copy of the line: 
stop 

else: 
split the country and capital by the comma character 
trim any leading and trailing spaces 
convert the country and capital to titlecase 
print the capital, a comma, and the country 


为 了 满足 要 求 ， 需 要 去 掉 名 字 首 尾 的 空格 ， 还 需要 使 用 小 写 形式 来 和 quit 进行 比较 ， 并 把 
ee 
正常 工作 : 


def process cities(filename): 
with open(filename, 'rt') as file: 
for line in file: 
Line = line.strip() 
if 'quit' in line.lower(): 
return 

country, city = line.split(',') 
city = city.strip() 
country = country.strip() 
print(city.title(), country.title(), sep=',') 












































if _ name _ == '_ main _ 
import sys 
process_cities(sys.argv[1]) 


使 用 之 前 准备 好 的 示例 数据 文件 来 测 斌 一下。 预备、 瞄准、 发 射 : 


$ python capitals.py citiesi.csv 
Paris,France 

Caracas ,Venuzuyela 
Vilnius,Lithunia 


很 好 ! 通过 测试 ， 我 们 把 它 放 到 生产 环境 中 测试 一 下 ， 使 用 下 面 的 数据 文件 来 处 理 首 都 和 
国家 名 称 ， 直 到 出 错 : 




















argentina,buenos aires 
bolivia,la paz 
brazil,brasilia 
chile,santiago 
colombia,Bogoté 
ecuador ,quito 

falkland islands,stanley 
french guiana,cayenne 
guyana ,georgetown 
paraguay,Asuncion 
peru,lima 
suriname,paramaribo 
Uruguay ,montevideo 
venezuela,caracas 

quit 


运行 程序 ， 只 打印 出 5 行内 容 ， 但 是 数据 文件 中 有 15 行 


$ python capitals.py cities2.csv 
Buenos Aires,Argentina 

La Paz,Bolivia 

Brazilia,Brazil 

Santiago,Chile 

Bogoté,Colombia 


发 生 了 什么 ? 我 们 可 以 修改 capitals py， 在 一 些 可 能 出 错 的 地 方 添加 print() 语句 ， 不 过 这 
尝试 一 下 调试 器 
如 果 要 使 用 调试 器 ， 需 要 在 命令 行 中 使 用 -m pdb 来 导入 pdb 模块 ， 如 下 所 示 : 


$ python -m pdb capitals.py cities2.csv 


> /Users/williamlubanovic/book/capitals.py(1)<module>() 
-> def process cities(filename): 
(Pdb) 


这 条 命令 会 启动 程序 并 停 在 第 一 行 。 如 果 你 输入 c (继续 )， 程 序 会 一 直 运 行 下 去 ， 直 到 下 
常 结束 或 者 出 现 错误 : 





























Buenos Aires,Argentina 

La Paz,Bolivia 

Brazilia,Brazil 

Santiago,Chile 

Bogoté,Colombia 

The program finished and will be restarted 

> /Users/williamlubanovic/book/capitals.py(1)<module>() 
-> def process cities(filename): 


程序 正常 结束 ， 和 没 使 用 调试 器 之 前 一 样 。 我 们 再 试 一 次 ， 使 用 一 些 命令 来 缩小 问题 出 现 
的 范围 。 看 起 来 这 是 一 个 逻辑 错误 ， 而 不 是 语法 错误 或 者 异常 (否则 会 打印 出 错误 信息 )。 


输入 s ( 单 步 ) 来 一 行 一 行 执 行 Python 代码 。 这 会 单 步 执行 所 有 Python 代码 : 你 自己 的 、 
标准 库 的 、 你 用 到 的 其 他 模块 的 。 使 用 s 时 也 会 进入 函数 内 部 并 继续 单 步 执 行 。 输 入 n 
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(下 一 个 ) 也 可 以 单 步 执 行 ， 但 是 不 会 进入 函数 ， 如 果 遇 到 一 个 函数 ， 








n 会 执行 整个 函数 并 





前 进 到 下 一 行 代 码 。 因 此 ， 不 确定 问题 在 哪 时 使 用 s， 确 定 问题 不 在 函数 中 时 使 用 n， 函 














数 很 长 时 尤其 有 用 。 通 常 来 说 ， 你 需要 单 步 执 行 自己 的 代码 ， 跳 过 库 代 
已 经 通过 测试 。 我 们 在 程序 开头 使 用 s 来 进入 函数 process_cities(): 








(Pdb) s 

> /Users/williamlubanovic/book/capitals.py(12)<module>() 
-> if _ name == '_ main _': 
(Pdb) s 


> /Users/williamlubanovic/book/capitals.py(13)<module>() 
-> import sys 


(Pdb) s 


> /Users/williamlubanovic/book/capitals.py(14)<module>() 
-> process_cities(sys.argv[1]) 


(Pdb) s 

--Call-- 

> /Users/williamlubanovic/book/capitals.py(1)process_cities() 
-> def process_ cities(filename): 


(Pdb) s 


> /Users/williamlubanovic/book/capitals.py(2)process_ cities() 
-> with open(filename, 'rt') as file: 


输入 1 (列表 ) 来 查看 之 后 的 儿 行 : 


(Pdb) 1 
1 def process cities(filename): 
2 -> with open(filename, 'rt') as file: 
3 for line in file: 
4 line = line.strip() 
9 if 'quit' in Line.Lower() : 
6 return 
7 country, city = line.split(',') 
8 city = city.strip() 
9 country = country.strip() 
10 print(city.title(), country.title(), sep=',') 
11 
(Pdb) 


箭头 〈->) 指示 当前 行 。 


码 ， 因 为 后 者 往往 


我 们 可 以 继续 使 用 s 或 者 n， 看 看 是 否 能 发 现 问 题 ， 不 过 这 里 使 用 调试 器 的 另 一 个 重要 特 
性 : 断 点 。 断 点 会 把 程序 暂停 在 你 指定 的 位 置 。 在 本 例 中 ， 我 们 想 知 道 process_cities() 








为 什么 在 读 完 所 有 输入 之 前 退出 。 第 3 行 (for line in file:) 会 读 





入 输入 文件 的 每 一 


行 ， 看 起 来 没什么 问题 。 函 数 中 能 在 读 入 所 有 数据 之 前 的 地 方 只 有 第 6 行 (return)。 我 们 
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在 第 6 行 设置 一 个 断 点 : 
(Pdb) b 6 





Breakpoint 1 at /Users/williamlubanovic/book/capitals.py:6 


接着 继续 运行 程序 ， 直 到 停 在 断 点 或 者 读 入 所 有 内 容 之 后 正常 退出 : 
(Pdb) c 











Buenos Aires,Argentina 

La Paz,Bolivia 

Brasilia,Brazil 

Santiago,Chile 

Bogoté,Colombia 

> /Users/williamlubanovic/book/capitals.py(6)process_ cities() 
-> return 


它 在 第 6 行 的 断 点 停 下 了 ， 也 就 是 说 ， 程 序 在 处 理 完 哥 伦比 亚 之 后 就 准备 退出 了 。 打 印 
Line 的 值 ， 看 看 读 入 的 是 什么 : 
(Pdb) p line 
































"ecuador ,quito' 
它 有 什么 特别 的 吗 ? 没有 啊 。 


真 的 吗 ? *quitso ? 我 们 的 领导 一 定 不 希望 正常 数据 中 的 字符 串 quit 终止 程序 运行 ， 看 起 
来 用 它 当 哨兵 值 (表示 终止 运行 ) 似乎 是 一 个 思春 的 主意 。 你 应 该 马上 告诉 他 ， 我 在 这 儿 








等 你 。 

如 果 现 在 你 还 没 丢 掉 工 作 ， 可 以 使 用 b 命令 查看 所 有 的 断 点 : 
(Pdb) b 
Num Type Disp Enb Where 


1 breakpoint keep yes at /Users/williamlubanovic/book/capitals.py:6 
breakpoint already hit 1 time 


1 命令 会 显示 代码 行 ， 当 前 行 〈->) 和 断 点 (B)。1 命令 默认 会 显示 从 上 次 使 用 1 之 后 直到 
现在 的 所 有 代码 ， 可 以 包含 一 个 可 选 的 起 始 行 这 里 从 第 1 行 开始 ) : 
(Pdb) L 1 





def process_cities(filename): 
with open(filename, 'rt') as file: 
for line in file: 
Line = line.strip() 
if 'quit' in line.lower(): 
return 

country, city = line.split(',') 
city = city.strip() 
country = country.strip() 
print(city.title(), country.title(), sep=',') 


POWWO 和 NUUAWDPe 
中 
V 


2 
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好 了 ， 修 复 一 下 quit 问题 ， 只 让 它 在 匹配 整 行 时 退出 : 








Li 


def process_ cities(filename): 
with open(filename, 'rt') as file: 
for Line in file: 
Line = line.strip() 


if 'quit' 


== line. lower(): 


return 
country, city = line.split(',') 
city = city.strip() 


country = 


country.strip() 


print(city.title(), country.title(), sep=',') 


if _ name _ == '__ main  ': 


import sys 


process_cities(sys.argv[1]) 


$ python capitals2.py 


cities2.csv 


Buenos Aires,Argentina 


La Paz,Bolivia 
Brasilia,Brazil 
Santiago,Chile 
Bogoté,Colombia 
Quito,Ecuador 


Stanley,Falkland Islands 


Cayenne,French Guiana 
Georgetown ,Guyana 
Asuncion,Paraguay 
Lima ,Peru 
Paramaribo,Suriname 
Montevideo,Uruguay 
Caracas ,Venezuela 





本 章 简单 介绍 了 一 下 调试 器 ， 只 是 告诉 你 调试 器 可 以 做 什么 以 及 最 常用 的 命令 。 
记 住 : 测试 越 多 ， 调 试 越 少 。 


12.9 记录 错误 日 志 


有 时 候 ， 你 需要 使 用 比 print() 更 高 端的 工具 来 记录 日 志 。 日 志 通 常 是 系统 中 的 一 个 文件 ， 
用 于 持续 记录 信息 。 信 息 中 通常 会 包含 很 多 有 用 的 内 容 ， 比 如 时 间 改 或 者 运行 程序 的 用 户 
的 名 字 。 通 常 来 说 ， 日 志 每 天 会 被 旋转 〈 重 命名 ) 并 压缩 ， 这 样 它们 就 不 会 占用 太 多 磁盘 
空间 。 如 果 程 序 出 错 ， 你 可 以 查看 对 应 的 日 志文 件 来 了 解 发 送 了 什么 。 异 常 信息 非常 重 
要 ， 因 为 它们 会 告诉 你 出 错 的 行 数 和 原因 。 


Python 标准 库 模块 中 有 一 个 logging (https://docs.python.org/3/library/logging.html)。 我 发 








现 关于 它 的 许多 描述 都 很 难 

















懂 。 使 用 一 段 时 间 之 后 可 以 更 好 地 理解 ， 但 是 对 于 新 手 来 说 ， 








有 点 太 复 杂 了 。1ogging 模块 包含 以 下 的 内 容 : 
。 你 想 保存 到 日 志 中 的 消息 ; 
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。 不 同 的 优先 级 以 及 对 应 的 函数 : debug()、info()、warn()、error() 和 critical()，; 
。 一 个 或 多 个 logger 对 象 ， 主 要 通过 它们 使 用 模块 ， 

。 把 消息 写 入 终端 、 文 件 、 数 据 库 或 者 其 他 地 方 的 handler; 

。 创建 输出 的 formatter; 

。 基于 输入 进行 筛选 的 过 滤器 。 


下 面 是 最 简单 的 日 志 示例 ， 导 入 模块 并 使 用 它 的 函数 


>>> import logging 

>>> logging.debug("Looks like rain") 

>>> logging.info("And hail") 

>>> logging.warn("Did I hear thunder?") 

WARNING: root:Did I hear thunder? 

>>> logging.error("Was that lightning?") 
ERROR:root:Was that lightning? 

>>> logging.critical("Stop fencing and get inside!") 
CRITICAL:root:Stop fencing and get inside! 


看 到 了 吗 ，debug() 和 info() 什么 都 没 做 ， 另 外 两 个 函数 在 每 条 消息 之 前 a 出 来 受 
别 :root:。 到 目前 为 止 ， 它 们 很 像 有 个 性 的 print() 语句 ， 有 些 还 对 我 们 抱 有 


不 过 它们 很 有 用 。 你 可 以 在 一 个 日 志文 件 中 搜索 指定 级 别 的 消息 ， 通 过 比较 时 间 戳 来 看 ， 
在 服务 器 月 涡 之 前 发 生 了 什么 。 


查看 文档 之 后 我 们 找到 了 第 一 个 问题 的 答案 (第 二 个 稍 后 介绍 ) : 默认 的 优先 级 是 
WARNING， 所 以 前 两 个 函数 没有 输出 。 当 调用 第 一 个 函数 (logging.debugt)) 时 它 就 被 锁 
定 了 。 我 们 可 以 使 用 bastcConfig() 来 设置 默认 的 级 别 。DEBUG 是 最 低 一 级 ， 因 此 下 面 的 例 
子 会 打印 出 所 有 级 别 的 消息 : 

>>> import logging 

>>> Logging.basicConfig(LeveL=Logging.DEBUG) 

>>> logging.debug("It's raining again") 

DEBUG:root:It's raining again 

>>> logging.info("With hail the size of hailstones") 

INFO:root:With hail the size of hailstones 


上 面 的 例子 都 是 直接 使 用 默认 的 Logging 函数 ， 没 有 创建 logger 对 象 。 每 个 logger 都 有 一 
个 名 称 。 创 建 一 个 名 为 bunyan 的 logger: 

>>> import logging 

>>> Logging.basicConfig(LeveL='DEBUG ' ) 

>>> logger = logging.getLogger('bunyan') 

>>> logger .debug('Timber!') 

DEBUG: bunyan:Timber! 


如 果 logger 名 称 中 包含 点 号 ， 会 生成 不 同 层级 的 logger， 每 层 可 以 有 不 同 的 属性 。 也 就 是 
说 ， 名 为 quark 的 logger 比 名 为 quark.charmed 的 层级 更 高 。 特 殊 的 root logger 在 最 顶层 ， 
它 的 名 字 是 ''。 
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注 2: 因为 有 些 消息 的 语气 很 严厉 。 一 一 译 者 注 
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到 目前 为 止 ， 我 们 只 是 打印 出 消息 ， 和 print() 的 差别 并 不 大 。 可 以 使 用 handler 把 消息 输 
出 到 不 同 的 地 方 。 最 常见 的 是 写 入 日 志文 件 ， 如 下 所 示 : 


>>> import logging 

>>> logging.basicConfig(level='DEBUG', filename='blue_ox.lo0g') 
>>> logger = logging.getLogger('bunyan') 

>>> logger .debug("Where's my axe?") 

>>> logger .warn("I need my axe") 





啊 哈 ， 这 些 内 容 并 没有 出 现在 屏幕 上 ， 而 是 写 信 了 文件 blue_ox.log: 


DEBUG:bunyan:Where's my axe? 
WARNING:bunyan:I need my axe 


调用 basicConfig() 时 使 用 filename 参数 会 创建 一 个 FileHandler 并 对 logger 进行 设置 。 
logging 模块 至 少 包 含 15 种 handler， 比 如 电子 邮件 、Web 服务 器 、 屏 幕 和 文件 。 


最 后 ， 你 可 以 控制 消息 的 格式 。 在 我 们 的 第 一 个 例子 中 ， 上 默认 的 格式 是 这 样 : 
WARNING:root: 消 息 ... 


如 果 给 basicConfig() 传人 format 字符 串 ， 可 以 改变 格式 : 


>>> import logging 

>>> fmt = '%(asctime)s %(LeveLname)s %(lineno)s %(message)s' 
>>> logging.basicConfig(level='DEBUG', format=fmt) 

>>> logger = logging.getLogger('bunyan') 

>>> logger .error("Where's my other plaid shirt?") 

2014-04-08 23:13:59,899 ERROR 1 Where's my other plaid shirt? 


我 们 修改 了 消息 的 格式 并 让 logger 把 消息 输出 到 屏幕 。logging 模块 可 以 识别 出 fmt 格式 
化 字符 串 中 的 变量 名 。 我 们 使 用 了 asctime (一 个 包含 日 期 和 时 间 的 ISO 8601 字符 串 )、 
levelname、lineno ( 行 号 ) 和 message。 它 们 都 是 内 置 的 变量 ， 你 也 可 以 创建 自 定义 变量 。 


logging 还 有 许多 这 里 没有 提 到 的 功能 ， 比 如 说 ， 你 可 以 同时 把 消息 输出 到 多 个 位 置 ， 每 
个 位 置 都 有 不 同 的 优先 级 和 格式 。 这 个 包 的 扩展 性 很 强 ， 不 过 有 时候 会 牺牲 一 些 简 洁 性 。 


12.10 ”优化 代码 


一 般 来 说 ，Python 已 经 足够 快 了 ， 直 到 它 不 够 快 的 那 一 刻 之 前 。 大 多 数 情 况 下 ， 你 都 可 以 
使 用 更 好 的 算法 或 者 数据 结构 来 加 速 ， 关 键 是 知道 把 这 些 技巧 用 在 哪里 。 即 使 是 经 验 丰 富 
的 程序 员 也 常常 会 犯错 误 。 你 需要 像 裁 颖 一 样 耐 心 ， 在 裁剪 之 前 认真 测量 。 下 面 来 介绍 一 
下 计时 器 。 






























































12.10.1 测量 时 间 

之 前 已 经 看 到 过 ，time 模块 中 的 time 函数 会 返回 一 个 浮 点 数 ， 表 示 当 前 的 纪元 时 间 。 测 
量 时 间 最 简单 的 方法 就 是 先 获取 当前 时 间 、 做 一 些 事情 、 获 取 新 的 时 间 ， 然 后 用 新 时 间 减 
去 初始 时 间 。 具 体 代 码 是 timel.py: 











286 | 第 12 章 


from time import time 


t1 = time() 
num = 5 
num *= 2 


print(time() - t1) 


在 本 例 中 ， 我 们 测量 了 把 5 赋值 给 变量 num 并 给 它 乘 以 2 所 需要 的 时 间 。 这 并 不 是 真正 的 
基准 测试 ， 只 是 告诉 你 如 何 测 量 Python 代码 的 执行 时 间 。 把 它 运行 几 次 ， 看 看 变化 幅度 : 


$ python time1.py 
2.1457672119140625e-06 
$ python time1.py 
2.1457672119140625e-06 
$ python time1.py 
2.1457672119140625e-06 
$ python time1.py 
1.9073486328125e-06 

$ python time1.py 
3.0994415283203125e-06 


大 概 是 两 百 万 或 者 三 百 万 分 之 一 秒 。 试 试 更 慢 的 代码 ， 比 如 sleep。 如 果 睡 眠 一 秒 ， 计 时 
器 应 该 比 一 秒 稍 大 一 些 。 把 下 面 的 代码 保存 为 time2.py: 


from time import time, sleep 





























t1 = time() 
sleep(1.0) 
print(time() - t1) 


为 了 检验 我 们 的 猜测 ， 多 次 运行 这 段 代码 : 


$ python time2.py 
1.000797986984253 
$ python time2.py 
1.0010130405426025 
$ python time2.py 
1.0010390281677246 


意料 之 中 ， 它 需要 运行 一 秒 多 一 点 。 如 果 不 是 这 个 结果 ， 那 计时 器 和 sleep() 肯定 有 一 个 
出 了 问题 。 

有 一 种 更 简单 的 方法 来 测量 代码 片段 的 执行 时 间 : 标准 模块 timeit (https://docs.python. 
org/3/library/timeit.html)。 它 有 一 个 函数 叫 作 (你 应 该 能 猿 到 ) timeit()， 这 个 函数 会 运行 
你 的 测试 代码 count 次 并 打印 结果 。 调 用 形式 : timeit.timeit(code, number，count)。 

在 本 节 的 例子 中 ，code 需要 放 在 引号 中 ， 这 样 它们 会 在 timeit() 内 部 运行 ， 而 不 是 直接 
运行 。( 下 一 节 会 看 到 如 何 用 timeit() 来 测量 函数 的 运行 时 间 。) 运行 一 次 之 前 的 示例 代码 
并 计时 。 把 下 面 的 代码 存 为 timeitl.py: 


from timeit import timeit 
print(timeit('nuyum = 5; num *= 2', number=1)) 


运行 几 次 : 
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python timeit1.py 
5600020308047533e-06 
python timetLt1.py 
9020008039660752e-06 
python timeit1.py 
7380007193423808e-06 


和 上 面 差不多 ， 这 两 行 代码 需要 大 约 两 百 万 分 之 一 秒 来 运行 。 我 们 可 以 使 用 timeit 模块 的 
repeat() 国 数 的 repeat 参数 来 运行 多 次 。 把 下 面 的 代码 保存 为 tmeit2.py: 


from timeit import repeat 
print(repeat('num = 5; num *= 2', Nnumber=1, repeat=3)) 


PP OU 














运行 一 下 : 


$ python timeit2.py 
[1.691998477326706e-06, 4.070025170221925e-07, 2.4700057110749185e-07] 


第 一 次 运行 用 了 大 约 两 百 万 分 之 一 秒 ， 第 二 和 第 三 次 运行 快 了 很 多 。 为 什么 ?原因 可 能 
很 多 ， 比 如 说 ， 由 于 我 们 测试 的 代码 片段 太 小 ， 它 的 运行 速度 取决 于 计算 机 同时 在 做 的 其 
他 事情 、Python 系统 对 计算 的 优化 方式 以 及 其 他 许多 事 。 

也 有 可 能 只 是 碰巧 。 下 面 来 尝试 一 些 相 比 变量 赋值 和 sleep 更 加 真实 的 代码 。 我 们 会 测量 
一 些 代码 并 比较 不 同 算法 (程序 逻辑 ) 和 数据 结构 (存储 方式 ) 的 效率 。 


12.10.2 ”算法 和 数据 结构 

Python 之 禅 (http://legacy.python.org/dev/peps/pep-0020/) 提 到 ， 应 该 有 一 种 ， 最 好 只 有 一 
种 ， 明 显 的 解决 方法 。 不 幸 的 是 ， 有 时 候 并 没有 那么 明显 ， 你 需要 比较 各 种 方案 。 举 例 
来 说 ， 如 果 要 构建 一 个 列表 ， 使 用 for 循环 好 还 是 列表 解析 好 ? 我 们 如 何 定义 更 好 ? 是 更 
快 、 更 容易 理解 、 占 用 内 存 更 少 还 是 更 具 Python 风格 ? 

在 接 下 来 的 练习 中 ， 我 们 会 用 不 同 的 方式 构建 列表 ， 比 较 速 度 、 可 读 性 和 Python 风格 。 下 


看 是 time_lists.py: 






























































from timeit import timeit 


def make_list 1(): 
result = [] 
for value in range(1000): 
result.append(value) 
return result 


def make_list 2(): 
result = [value for value in range(1000)] 
return result 


print('make_list 1 takes', timeit(make_list_1, number=1000), 'seconds') 
print('make_list 2 takes', timeit(make_list 2, number=1000), 'seconds') 
在 每 个 函数 中 ， 我 们 都 向 列表 添加 了 1000 个 元 素 ， 还 分 别 调用 两 个 函数 1000 次 。 注 意 ， 
这 里 调用 timeit() 时 ， 传 和 人 的 第 一 个 参数 是 国 数 名 不 是 字符 串 形 式 的 代码 。 运 行 一 下 : 
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$ python time_lists.py 
make_list_1 takes 0.14117428699682932 seconds 
make_list 2 takes 0.06174145900149597 seconds 


列表 解析 至 少 比 用 append() 添加 元 素 快 两 倍 。 通 常 来 说 ， 列 表 解 析 要 比 手 动 添 加 快 。 
可 以 使 用 这 个 方法 来 加 速 你 的 代码 。 





12.10.3 Cython、NumPy 和 C 扩 展 

如 果 你 已 经 尽 了 最 大 努力 仍然 无 法 达到 想 要 的 速度 ， 还 有 一 些 方 法 可 以 选择 。 
Cython (http:/cython.org/) 混合 了 Python 和 C， 它 的 设计 目的 是 把 带 有 性 能 注释 的 Python 代 
码 翻译 成 C 代码 。 这 些 注释 非常 简单 ， 比 如 声明 一 些 变量 、 函 数 参数 或 者 函数 返回 值 的 类 
型 。 对 于 科学 上 的 数字 运算 循环 来 说 ， 添 加 这 些 注释 之 后 会 让 程序 快 很 多 ， 速 度 能 达到 之 前 
的 一 千 倍 。 可 以 在 Cython wiki (https://github.com/cython/cython/wiki) 查看 文档 和 示例 。 
NumPy 是 Python 的 一 个 数学 库 ， 它 是 用 C 语言 编写 的 ， 运 行 速度 很 快 。 你 可 以 在 附录 C 
中 阅读 NumPy 的 相关 信息 。 

为 了 提高 性 能 并 且 方 便 使 用 ，Python 的 很 多 代码 和 标准 库 都 是 用 C 写成 并 用 Python 进行 
封装 。 这 些 钩子 可 以 直接 在 你 的 程序 中 使 用 。 如 果 你 熟悉 C 和 Python 并 且 真 的 想 提高 程 
序 性 能 ， 可 以 写 一 个 C 扩 展 ， 这 样 做 难度 很 大 但 是 效果 很 好 。 



































12.10.4 PyPy 


大 约 20 年 前 ，Java 刚 出 现时 ， 速 度 就 像 一 只 得 了 关节 炎 的 雪 纳 瑞 一 样 慢 。 当 Sun 和 其 他 
公司 看 到 它 的 价值 之 后 ， 它 们 投入 了 几 百 万 美元 来 优化 Java 的 解释 器 和 底层 的 Java 虚拟 
机 (JVM)， 借鉴 了 其 他 语言 (比如 Smalltalk 和 LISP) 的 许多 技术 。 微 软 也 投入 了 很 大 精 
力 来 优化 它 的 C# 语言 和 .NET 虚拟 机 。 

Python 不 属于 任何 人 ， 因 此 没 人 投入 这 么 多 努力 来 提高 它 的 速度 。 你 使 用 的 很 可 能 是 标准 
的 Python 实现。 它 是 由 C 写成 ,通常 被 称 为 CPython (和 Cython 不 一 样 )。 

和 PHP、Perl 甚至 Java 一样 ，Python 并 不 会 被 编译 成 机 器 语言 ， 而 是 被 翻译 成 中 间 语 言 
(通常 被 称 为 字 节 码 或 者 p- 代码 )， 然 后 被 虚拟 机 解释 执行 。 

PyPy (http://pypy.org/) 是 一 个 新 出 现 的 Python 解释 器 ， 实 现 了 许多 Java 中 的 加 速 技术 。 
它 的 基准 测试 (http://speed.pypy.org/) 显示 PyPy 几乎 完全 超越 了 CPython 平均 快 6 
倍 ， 最 高 快 20 倍 。 它 支持 Python 2 和 Python 3， 你 可 以 下 载 并 用 它 代替 CPython。PyPy 
在 不 断 改进 ， 某 一 天 可 能 会 取代 CPython。 可 以 阅读 官网 的 最 新 发 布 内 容 ， 看 看 是 否 可 以 
用 在 你 的 项 目 上 。 


12.11 源码 控制 


当 你 在 一 个 小 团队 或 者 小 项 目 中 工作 时 ， 通 常 很 容易 跟踪 自己 的 改动 ， 直 到 你 犯 了 很 遇 
蠢 的 错误 并 花费 很 多 时 间 来 修复 它 。 源 码 控制 系统 会 保护 你 的 代码 不 被 破坏 〈 比 如 被 你 
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自己 的 思春 错误 ) 。 如 果 你 和 其 他 开发 者 在 一 个 团队 工作 ， 源 码 控制 就 变 得 极其 重要 。 这 
个 领域 有 很 多 收费 和 开源 的 包 可 以 用 。 在 Python 所 处 的 开源 领域 ， 最 流行 的 是 Mercurial 
和 Git， 它 们 都 是 分 布 式 版 本 控制 系统 ， 会 生成 代码 仓库 的 多 个 副本 。 早 期 的 系统 ， 比 如 
Subversion， 是 工作 在 单个 服务 器 上 的 。 














12.11.1 Mercurial 


Mercurial (http://mercurial.selenic.com/) 是 用 Python 写成 的 。 它 很 容易 学 习 ， 有 很 多 有 
用 的 子 命令 ， 比 如 从 Mercurial 仓库 下 载 代码 、 添 加 文件 、 提 交 改 动 、 从 不 同 的 源 合 
并 改动 。bitbucket (https://bitbucket.org/) 和 其 他 网 站 (https://mercurial.selenic.com/wiki/ 
MercurialHosting) 提供 了 免费 或 者 收费 的 托管 服务 。 


12.11.2 Git 

Git (http://git-sem.com/) 最 初 是 用 于 Linux 内 核 开发 ， 但 是 现在 基本 上 已 经 统治 了 开源 领 
域 。 它 和 Mercurial 很 像 ， 不 过 有 些 人 发 现 它 更 难 精 通 。GitHub (https://github.com/) 是 最 
大 的 Git 托管 平台 ， 拥 有 超过 一 百 万 个 仓库 。 除 了 GitHub， 还 有 一 些 其 他 的 Git 托管 平台 
(https://git.wiki.kernel.org/index.php/GitHosting ) 。 


本 书 中 的 程序 示例 都 放 在 GitHub (https://github.com/madscheme/introducing-python) 的 一 

个 公共 Git 仓库 中 。 如 果 你 的 计算 机 上 有 git 程序 ， 可 以 使 用 下 面 的 命令 来 下 载 这 些 程序 : 
$ git clone https://github.com/madscheme/introducing-python 

也 可 以 点 击 GitHub 页 面 上 的 按钮 来 下 载 代码 : 

。 点 击 “Clone in Desktop” 来 打开 桌面 版 的 git， 如 果 之 前 已 经 安装 过 ， 

。 点 击 “Download ZIP” 来 下 载 压缩 归档 的 程序 。 

如 果 你 没有 git， 但 是 想 尝 试 一 下 ， 可 以 阅读 安装 教程 (http://git-scem.com/book/en/v2/ 

Getting-Started-Installing-Git)。 我 会 介绍 命令 行 版 本 的 git， 不 过 你 也 可 以 试 试 GitHub 这 

样 的 网 站 ， 它 们 会 提供 额外 的 服务 并 且 有 了 时候 会 更 好 用 。git 有 许多 特性 ， 但 有 时 候 不 太 

直观 。 

下 面 来 尝试 一 下 git。 我 们 不 会 太 深 入 ， 不 过 会 展示 一 些 命令 和 它们 的 输出 。 

创建 一 个 新 目录 并 进入 : 


$ mkdir newdir 
$ cd newdir 


在 当前 目录 newdir 中 创建 一 个 本 地 Git 仓库 : 


$ git init 






























































Initialized empty Git repository in /Users/williamlubanovic/newdir/.git/ 





在 newdir 中 创建 一 个 Python 文件 test.py， 内 容 如 下 所 示 : 


print('Oops') 
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把 这 个 文件 添加 到 Git 仓库 : 
$ git add test.py 
Git 先生 ， 感 觉 如 何 ? 


$ git status 





On branch master 
Initial commit 


Changes to be committed: 
(use "git rm --cached <file>... 


to unstage) 


new file: test.py 
这 表示 test.py 已 经 是 本 地 仓库 的 一 部 分 ， 但 是 它 的 改动 还 没有 被 提交 。 我 们 来 提交 一 下 : 
$ git commit -m "simple print program" 


[master (root-commit) 52d60d7] my first commit 
1 file changed, 1 insertion(+) 
create mode 100644 test.py 


-m "my first commit" 是 你 的 提交 说 明 。 如 果 忽 略 ， 说 明 git 会 打开 一 个 编辑 器 并 要 求 你 
输入 说 明 。 它 会 被 记录 到 这 个 文件 在 git 中 的 提交 历史 里 。 


看 看 现在 的 状态 : 


$ git status 





On branch master 
nothing to commit, working directory clean 


好 ， 所 有 改动 都 已 经 提交 。 这 表示 我 们 可 以 进行 任何 改动 并 且 不 用 担心 丢失 原始 版 本 。 修 
改 一 下 testpy， 把 0ops 改 成 0ps! 并 保存 文件 : 


print('Ops!') 


再 来 看 看 git 的 感觉 : 


$ git status 














On branch master 
Changes not staged for commit: 
(use "git add <file>..." to update what will be committed) 
(use "git checkout -- <file>..." to discard changes in working directory) 


modified: test.py 


no changes added to commit (use "git add" and/or "git commit -a") 


使 用 git diff 来 查看 上 次 提交 之 后 的 改动 : 
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$ git diff 


diff --git a/test.py b/test.py 
index 76b8c39. .62782b2 100644 
--- a/test.py 
+++ b/test.py 


@@ -1 +1 @@ 
-print('Oops') 
+print('Ops!') 


如 果 尝 试 提 交 改 动 ，git 会 抱怨 : 
$ git commit -m "change the print string" 


On branch master 
Changes not staged for commit: 
modified: test.py 


no changes added to commit 


staged for commit 的 意思 是 需要 先 add 文件 ， 可 以 把 这 个 动作 翻译 成 : 嘿 ，Git， 往 这 儿 看 : 
$ git add test.py 
也 可 以 输入 git add .来 添加 当前 目录 下 的 所 有 改动 文件 。 如 果 你 修改 了 很 多 文件 并 且 想 
要 提交 所 有 改动 ， 这 个 命令 会 非常 方便 。 现 在 提交 改动 : 
$ git commit -m "my first change" 


[master etellec] my first change 
1 file changed, 1 insertion(+), 1 deletion(-) 


如 果 想 查看 你 对 test.py 做 的 所 有 事情 ， 按 照 时 间 倒序 排列 ， 可 以 使 用 git Log: 
$ git log test.py 


commit eleilecf802ae1a78debe6193c552dcd15ca160a 
Author: William Lubanovic <bill@madschenme.com> 
Date: Tue May 13 23:34:59 2014 -0500 


change the print string 
commit 52d60d76594a62299f6fd561b2446c8b1227cfe1 
Author: William Lubanovic <bill@madschenme.com> 


Date: Tue May 13 23:26:14 2014 -0500 


simple print program 


12.12 复制 本 书 代 码 


你 可 以 下 载 本 书 中 所 有 程序 的 代码 。 查 看 Git 仓库 (https://github.com/madscheme/introducing- 
python) 并 按照 教程 把 仓库 复制 到 你 的 本 地 电脑 上 。 如 果 你 有 git, 可 以 运行 命令 git clone 
https://github.com/madscheme/introducing-python 来 复制 仓库 。 你 也 可 以 下 载 zip 格式 的 
文件 。 




















12.13 更 多 内 容 


这 本 书 只 是 入 门 教程 ， 大 部 分 内 容 是 基础 知识 ， 实 践 方面 内 容 不 多 。 下 面 ， 我 会 推荐 一 些 


有 用 的 Python 教程 。 




















12.13.1 书 
下 面 是 我 觉得 非常 有 用 的 图 书 ， 从 入 门 到 精通 都 有 ， 涵 盖 了 Python 2 和 Python 3: 


当然 

















Barry, Paul. Head First Python. O’Reilly, 2010. 

Beazley, David M. Python Essential Reference (4th Edition). Addison-Wesley, 2009. 

Beazley, David M. and Brian K. Jones. Python Cookbook (3rd Edition). O’Reilly, 2013. 

Chun, Wesley. Core Python Applications Programming (3rd Edition). Prentice Hall, 2012. 
McKinney, Wes. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and 
TPython. O’Reilly, 2012. 

Summerfield, Mark. Python in Practice: Create Better Proerams Using Concurrency, 
Libraries, and Patterns. Addison-Wesley, 2013. 


， 除 此 之 外 还 有 很 多 (https://wiki.python.org/moin/PythonBooks)。 


12.13.2 ”网 站 


可 以 在 下 面 这 些 网 站 上 找到 很 多 有 用 的 教程 : 











nl 








Zed Shaw 的 Learn Python the Hard Way (http://learnpythonthehardway.org/book/) 
Mark Pilgrim 的 Dive Into Python 3 (http://www.diveintopython3.net/) 
Michael Driscoll 的 Mouse Vs. Python (http:Wwww.blog.pythonlibrary.org/) 





如 果 你 对 Python 世界 的 新 东西 很 感 兴趣 ， 可 以 看 看 下 面 这 些 网 站 : 











comp.lang.python (https://groups.google.com/forum/#!forum/comp.lang.python) 
comp.lang.python.announce (https://groups.google.com/forum/#!forum/comp.lang.python. 
announce) 

python subreddit (http:/www.reddit.com/r/python) 

Planet Python (http://planet.python.org/) 


最 后 是 一 些 下 载 Python 代码 的 好 地 方 : 


The Python Package Index (https://pypi.python.org/pypi) 

stackoverflow Python questions (http://stackoverflow.com/questions/tagged/python) 
ActiveState Python recipes (http://code.activestate.com/recipes/langs/python/) 
Python packages trending on GitHub (https://github.com/trending?l=python) 


12.13.3 社区 
有 很 多 计算 机 社区 : 热心 的 、 好 辩 的 、 沉 问 的 、 时 茎 的 、 无 聊 的 ， 等 等 。Python 社区 非常 
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友好 和 民主 。 你 可 以 基于 位 置 发 现 Python 社区 meetups (http://python.meetup.com/) 和 
遍布 全 世界 (https://wiki.python.org/moin/LocalUserGroups) 的 本 地 用 户 社区 。 还 有 一 些 分 
布 式 的 基于 共同 兴趣 的 社区 。 举 例 来 说 ，PyLadies (http:/www.pyladies.com/) 是 由 那些 对 
Python 和 开源 感 兴趣 的 女性 组 成 。 











12.13.4 ”大 会 


Python 有 遍布 全 世界 (https:Wwww.python.org/community/workshops/) 的 大 会 (http:/www. 
pycon.org/) 和 实践 课程 ， 每 年 在 南美 (https://us.pycon.org/2015/) 和 欧洲 (https://europython. 
eu/en/) 举办 的 大 会 规模 最 大 。 


12.14 后续 内 容 

等 等 ， 还 没 结束 ! 附录 A、 附 录 B 和 附录 C 分 别 介绍 了 Python 在 艺术 、 商 业 和 科学 方面 
的 应 用 。 你 至 少 能 找到 一 个 感 兴趣 的 包 。 

互联 网 上 有 很 多 闪闪 发 亮 的 东西 ， 只 有 你 自己 知道 ， 对 你 来 说 ， 哪 些 是 装饰 品 哪些 是 银 
弹 ?。 即 使 你 现在 还 没有 遇 到 狼人 ， 也 应 该 在 口袋 中 备 一 些 银 弹 ， 以 防 万 一 。 

书 的 最 后 是 每 章 结尾 练习 的 答案 、 安 装 Python 和 其 相关 内 容 的 详细 教程 ， 以 及 我 觉得 很 有 
用 的 速 查 表 。 虽 然 你 对 这 些 东西 已 经 很 熟悉 了 ， 不 过 万 一 需要 可 以 去 书后 查阅 。 





















































注 3: 传说 中 ， 银 弹 是 狼人 的 克星 。 在 《人 月 神话 》 中 ， 作 者 用 银 弹 比喻 能 快速 解决 难题 的 方法 。 这 里 作者 
的 意思 也 是 如 此 ， 学 会 Python 以 备 不 时 之 需 。 一 一 译 者 注 
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附录 人 
Python 的 艺术 





“艺术 就 是 艺术 ， 对 吧 ? 同样 ， 水 就 是 水 ! 东 就 是 东 ， 西 就 是 西 。 如 果 你 把 越 桶 
炖 得 像 苹 果 普 一 样 ， 那 么 它 尝 起 来 就 比 大 黄 更 像 西 梅 。” 


一 一 Groucho Marx 
你 可 能 是 个 艺术 家 、 抑 或 是 音乐 家 ， 或 者 你 只 是 想 尝试 一 些 不 同 的 能 激发 无 限 创造 力 的 事情 。 


前 三 个 附录 收录 了 人 们 在 不 同 场合 、 不 同 领域 借助 Python 进行 的 探索 。 如 果 你 对 其 中 的 某 
些 领域 感 兴 趣 ， 可 能 会 从 中 获取 些许 灵感 ， 或 产生 动手 尝试 的 冲动 。 


A.1 2D 图 形 


几乎 所 有 的 计算 机 编程 语言 或 多 或 少 都 会 被 应 用 到 图 形 处 理 中 。 尽 管 本 章 用 到 的 许多 功能 
强大 的 平台 ， 出 于 效率 考虑 ， 都 是 由 C 或 C++ 编写 的 ， 但 它们 大 都 喜欢 用 Python 编写 的 
库 来 扩展 其 功能 。 我 们 先 来 看 一 些 2D 成 像 库 。 


A.1.1 标准 库 
标准 库 中 与 图 形 相关 的 库 并 不 多 ， 这 里 介绍 其 中 的 两 个 。 
。 imghdr 
这 个 模块 用 于 检测 图 片 文件 的 文件 格式 。 
。 Colorsys 
这 个 模块 用 于 在 不 同 的 颜色 系统 (RGB、YIQ、HSV 以 及 HLS) 间 进 行 转换 。 
如 果 你 已 经 把 O’Reilly 的 标志 下 载 到 本 地 并 存储 为 oreilly.png， 可 以 直接 运行 下 面 这 段 代码 : 
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>>> import imghdr 

>>> imghdr .what('oreilly.png') 

'png' 
为 了 在 Python 中 对 图 片 进行 更 高 级 的 处 理 ， 我 们 需要 安装 一 些 第 三 方 包 。 先 来 看 看 有 哪些 
包 可 用 。 








A.1.2 PIL 和 Pillow 


多 年 以 来 ， 尽管 Python 图 片 库 (Python Image Library,，PIL,， http://effbot.org/imagingbook/ 
pil-index.htm) 并 不 属于 Python 的 标准 库 ， 但 它 一 直 是 Python 中 最 著名 的 2D 图 片 处 理 库 。 
由 于 它 在 包 安 装 器 pip 之 前 就 已 出 现 ， 因 此 我 们 无 法 用 便捷 的 pip 命令 进行 安装 。 对 此 ， 
有 人 创建 了 一 个 友好 的 项 目 分 支 Pilow (http://pillow.readthedocs.org/)。Pillow 向 后 兼容 
PIL， 并 且 文 档 更 为 规范 ， 因 此 这 里 我 们 选择 使 用 Pillow 作为 替代 。 


安装 过 程 非常 简单 ， 在 终端 中 执行 下 面 的 命令 即 可 : 


$ pip install Pillow 


如 果 你 曾经 安装 过 Libjpeg、Libfreetype 和 zlib 这 几 个 系统 包 ， 它 们 会 被 Pillow 检测 出 
来 并 且 直 接 使 用 ， 不 再 重复 安装 。 你 可 以 在 安装 页 (http://pillow.readthedocs.org/en/latest/ 
installation.html) 了 解 更 多 安装 细节 。 


打开 一 个 图 片 文件 ; 


>>> from PIL import Image 

>>> img = Image.open('oreilly.png') 
>>> img.format 

"PNG ' 

>>> img.size 

(154, 141) 

>>> img.mode 

'RGB' 


包 的 名 字 是 Pillow, 但 为 了 让 它 与 旧 的 PIL 兼容 ， 我 们 需要 将 它 引用 为 PIL。 
使 用 Image 对 象 的 show() 方法 可 以 在 屏幕 上 显示 图 片 ， 但 为 此 你 需要 先 安装 ImageMagick 
包 。 下 一 小 节 会 介绍 这 个 包 ， 到 时 候 试 着 运行 下 面 的 代码 ; 

>>> img.show() 
执行 上 述 代 码 后 ， 屏 幕 上 会 跳出 一 个 新 窗口 ， 如 图 A-1 所 示 。 (截图 是 在 Mac OS X 系统 下 


截取 的 ，show() 实际 上 打开 了 Mac 中 预览 程序 来 显示 图 片 。 不 同系 统 下 的 图 片 浏览 窗口 可 
能 有 所 不 同 。) 
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图 A-1: 使 用 Python 库 打开 的 图 片 


将 放 入 内 存 中 的 图 片 裁剪 一 下 ， 把 结果 存储 为 一 个 新 的 对 象 img2 并 重新 显示 它 。 图 片 总 
是 以 水 平 坐标 值 (x) 和 垂直 坐标 值 (y) 计量 ， 它 们 以 图 片 的 一 角 作 为 参考 。 这 个 角 被 称 
作 原 点 ， 它 的 * 坐 标 和 ?7 坐标 都 是 0。 我 们 使 用 的 库 中 ， 原 点 (0, 0) 定义 为 图 片 的 左上 
角 , x 向 右 增 加 ，y 向 下 增加 。 想 要 给 crop() 方法 传 入 4 个 参数 : 左 侧 距 x (55)、 顶 距 y 
(70)、 右 侧 距 x (85) 以 及 底 距 y (100)， 需 要 先 将 它们 按 顺 序 封 装 在 元 组 中 。 

>>> crop = (55, 70, 85, 100) 


>>> img2 = img.crop(crop) 
>>> img2.show() 

















结果 如 图 A-2 所 示 。 
@ee 3 tmpswlkpm.BMP ww 
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图 A-2: 裁剪 后 的 图 片 


使 用 save 方法 存储 图 片 。 它 接收 一 个 文件 名 参数 以 及 一 个 可 选 参数 一 一 图片 类 型 。 如 果 文 
件 名 中 有 扩展 名 ， 库 函数 会 直接 使 用 这 个 扩展 名 作为 图 片 的 格式 ， 当 然 你 也 可 以 显 式 指定 
使 用 的 格式 。 执 行 下 面 的 代码 可 以 将 裁剪 后 的 图 片 存储 为 GIF 文件 : 
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>>> img2.save('cropped.gif', 'GIF') 
>>> img3 = Image.open('cropped.gif') 
>>> img3.format 

"GIF 

>>> img3.size 

(30, 30) 


我 们 来 美化 一 下 我 们 的 小 吉祥 物 吧 。 首 先 将 胡须 图 片 (http://www.pinkmoustache.net/wp- 
content/uploads/2009/12/moustaches.png) 下 载 到 本 地 ， 存 储 为 moustaches.png。 接 着 将 它 加 
载 到 内 存 中 ， 进 行 适 当 的 裁剪 ， 然 后 把 它 置 于 之 前 图 片 的 上 层 : 


>>> mustache = Image.open('moustaches.png') 

>>> handlebar = mustache.crop( (316, 282, 394, 310) ) 
>>> handlebar.size 

(78, 28) 

>>> img.paste(handlebar, (45, 90) ) 

>>> img.show() 


图 A-3 展示 了 最 佳 效 果 。 
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A-3; 全 新 帅气 的 吉祥 物 


如 果 胡 须 图 片 的 背景 是 透明 的 话 效果 会 更 好 。 不 如 把 这 个 当 作 练习 吧 ! 如 果 你 想 要 把 上 
盏 的 例子 做 到 最 好 ， 查 看 一 下 Pillow 教程 (http://pillow.readthedocs.org/en/latest/handbook/ 
tutorial.html) 中 关于 延明 度 和 alpha 值 的 相关 内 容 ， 然 后 自己 动手 试 试 吧 ! 



































A.1.3 ImageMagick 


ImageMagick (http://www.imagemagick.org/script/index.php) 是 一 套用 于 转换 、 修 改 、 显 
示 2D 位 图 的 程序 。 它 已 经 有 20 余 年 的 历史 了 。 许 多 第 三 方 Python 库 都 会 应 用 到 
ImageMagick C 库 ， 其 中 最 近 的 一 个 支持 Python 3 的 库 是 wand (http://docs.wand-py.org/ 
en/0.4.0/) 。 执 行 下 面 的 语句 来 安装 它 : 


$ pip install Wand 
你 可 以 使 用 wand 做 许多 Pillow 能 做 到 的 事情 : 











298 | 附录 人 入 


>>> from wand.image import Image 
>>> from wand.display import display 


>>> img = Image(filename='oreilly.png') 
>>> img.size 

(154, 141) 

>>> img.format 

"PNG 


和 Pillow 类 似 ， 下 面 的 语句 用 于 显示 图 片 : 
>>> display(img) 


wand 包含 旋转 、 调 整 大 小 、 添 加 文本 、 画 线 、 格 式 转化 等 强大 的 功能 ， 这 些 功 能 你 也 可 以 
在 Pillow 中 找到 。Wand 和 Pillow 的 API 和 文档 都 非常 规范 好 用 。 


A.2 图 形 用 户 界 面 


GUI 这 个 名 词 虽 然 包括 图 形 这 个 词 ， 但 它 的 重点 更 在 于 用 户 界面 (展示 数据 用 的 小 控件 、 
输入 的 方法 、 菜 单 、 按 钮 以 及 包含 所 有 这 些 的 窗口 等 ) 上 


GUI 编程 (https://wiki.python.org/moin/GuiProgramming) 的 wiki 页 以 及 FAQ (https://docs. 
python.org/3.3/faq/gui.html) 列 出 了 许可 用 Python 编写 的 GUI。 我 们 从 唯一 一 个 内 置 于 标 
准 库 的 Tkinter (https://wiki.python.org/moin/TkInter) 开始 介绍 。 它 功能 不 多 ， 但 可 以 在 所 
有 平台 上 创建 符合 接近 原生 界面 的 窗口 以 及 控件 。 

下 面 是 一 个 极 简 的 Tkinter 程序 ， 它 可 以 在 新 建 的 窗口 中 显示 我 们 最 爱 的 小 吉祥 物 ， 它 有 
着 曲棍球 似 的 眼睛 : 


>>> import tkinter 
>>> from PIL import Image, ImageTk 









































7 











>>> main = tkinter.Tk() 

>>> img = Image.open('oreilly.png') 

>>> tkimg = ImageTk.PhotoImage(img) 

>>> tkinter.Label(main, image=tkimg).pack() 
>>> main.mainloop() 


注意 ， 上 面 的 代码 用 到 了 PIL/Pillow 中 的 一 些 模块 。 你 应 该 又 一 次 见 到 了 O’Reilly 的 标志 ， 
如 图 A-4 所 示 。 





OREILLY- 


ey 














A-4: 使 用 Tkinter 库 显示 的 图 片 
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想 要 关闭 窗口 的 话 只 需 点 击 关 闭 按钮 或 者 关闭 Python 解释 器 即 可 。 
你 可 以 在 tkinter wiki (http://tkinter.unpythonic.net/wiki/) 和 Python wiki (https://wiki.python. 


org/moin/TkInter) 上 看 到 更 多 关于 Tkinter 的 信息 。 现 在 来 看 一 些 不 包含 在 标准 库 中 的 
GUI。 








Qt (http://qt-project.org/) 

Qt 是 一 款 由 挪威 Trolltech 公司 开发 的 专业 级 GUI 及 应 用 工具 包 ， 已 有 20 多 年 的 历 
史 。 像 著名 的 Google Earth、Maya 以 及 Skype 都 是 由 Qt 协助 完成 的 。 它 还 被 用 于 一 更 
桌面 版 Linux KDE 的 开发 。Qt 有 两 个 主要 的 Python 库 版 本 : 其 中 PySide (http:// 
wiki.qtio/PySide) 是 免费 的 (LGPL 许可 )，PyQt (http://www.riverbankcomputing.com/ 
software/pyqt/intro) 则 是 基于 GPL 许可 付费 使 用 的 。 你 可 以 在 这 里 看 到 它们 之 间 的 差 
别 (http://wiki.qt.io/Differences_Between_PySide_and_PyQt)， 可 以 从 PyPi (https://pypi. 
python.org/pypi/PySide) 或 Qt (http://qt-project.org/wiki/Get-PySide) 网 站 下 载 Qt 并 阅读 
相关 教程 (http://qt-project.org/wiki/PySide_Tutorials)， 可 以 在 线 (http://www.riverbankc 
omputing.com/software/pyqt/download5) 免费 下 载 Qt 主体 。 


GTK+ (http://www.gtk.org/) 

GTK+ 是 Qt 的 一 个 强劲 对 手 ， 它 也 被 广泛 应 用 于 包括 GIMP 和 Gnome (一 款 桌 面 
版 Linux) 在 内 的 许多 应 用 (http://gtk-apps.org/) 的 开发 。 它 与 Python 通过 PyGTK 
(http://www.pygtk.org/) 进行 绑 定 。 你 可 以 访问 PyGTK 的 官网 (http://www.pygtk.org/ 
downloads.html) 下 载 代 码 、 阅 读 相关 文档 (http://python-gtk-3-tutorial.readthedocs.org/ 
en/latest/) 。 






































WxPython (http:/www.wxpython.org/) 

用 于 将 Python 与 WxWidgets (http://www.wxwidgets.org/) 进行 绑 定 。WxWidgets 也 是 一 
款 功能 强大 的 UI 工具 包 ， 你 可 以 从 网 上 (http://wxpython.org/download.php) 免费 下 载 。 
Kivy (http://kivy.org/) 

Kivy 是 一 个 用 于 搭建 跨 平台 一 一 PC 端 (Windows、OS X、Linux) 及 移动 端 (Android、 
iO0S) 一 一 多 媒体 UI 的 现代 库 。 它 包含 对 于 多 点 触 控 的 支持 。 你 可 以 从 Kivy 官网 
(http://kivy.org/#download) 下 载 所 有 平台 对 应 的 库 文件 。 它 还 提供 了 不 同 平台 的 应 用 开 
发 教程 (http:/kivy.org/docs/gettingstarted/intro.html) 。 


网 络 

像 Qt 这 样 的 框架 依赖 的 都 是 本 地 控件 ， 然 而 也 有 一 些 其 他 的 框架 使 用 的 是 网 络 。 毕 竞 
网 络 是 一 种 通用 的 GUI， 它 包含 图 形 (SVG)、 文 本 (HTML) 其 至 现在 还 可 以 包含 多 
媒体 (HTML5)。 使 用 Python 编写 的 基于 网 络 的 GUI 工具 包括 RCTK (Remote Control 
Toolkit，https://code.google.com/p/rctk/) 以 及 Muntjac (http://muntiacus.org/)。 你 可 以 创 
建 支 持 任意 前 端 (基于 浏览 器 ) 和 后 端 (网 络 服务 器 ) 组 合 的 网 络 程序 。 在 瘦 客 户 端 
模式 下 ， 后 端 会 完成 大 部 分 工作 。 而 如 果 前 端 起 支配 作用 的 话 ， 我 们 称 之 为 厚 客户 端 、 
胖 客户 端 或 富 客户 端 〈 最 后 一 个 词 显然 有 拍马屁 的 嫌疑 )。 端 与 端 之 间 的 通信 常 使 用 
RESTful API、AJAX 以 及 JSON。 
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A.3 3D 图 形 和 动画 


现在 几乎 每 一 部 电影 的 片尾 字幕 里 都 包含 了 许多 制作 特效 和 动画 的 人 名 。 许 多 大 型 工作 
室 一 一 华 特 迪 士 尼 动画 、ILM、 维 塔 数 码 、 梦 工厂 、 上 皮克斯 一 一 都 会 雇 不 少 具 有 Python 
经 验 的 人 。 你 可 以 上 网 搜索 “python 动画 职位 ”看 看 ， 或 者 到 vfxjobs 上 搜索 关键 词 
“python” 看 看 有 多 少 职位 空缺 。 


如 果 你 喜欢 探索 Python， 喜 欢 3D、 动 画 、 多 媒体 以 及 游戏 的 话 ， 应 该 试 试 Panda3D 
(http:/www.panda3d.org/) 。 它 开源 、 完 全 免费 ， 你 甚至 可 以 用 它 搭 建 商业 应 用 。 你 可 以 
从 Panda3D 官网 (http:/www.panda3d.org/download.php?sdk) 上 下 载 与 你 电脑 系统 对 应 的 
版 本 。 如 果 你 想 要 测试 一 下 它 自 带 的 示例 程序 ， 需 要 先 将 终端 的 路 径 切 换 到 /Developer/ 
Examples/Panda3D。 这 个 目录 中 的 每 一 个 子 目录 都 包含 了 一 个 或 多 个 .py 文件 。 使 用 
Panda3D 的 ppython 命令 来 运行 这 些 示例 程序 。 例 如 : 

$ cd /Developer/Examples/Panda3D 

$ cd Ball-in-Maze/ 

$ ppython Tut-Ball-in-Maze.py 

DirectStart: Starting the game. 

Known pipe types: 


osxGraphicsPpipe 
(all display modules loaded.) 


一 个 类 似 图 A-5 的 窗口 会 打开 。 











Mouse pointer tilts the board 


Panda3D: Tutorial - Collision Detection 














图 A-5; 使 用 Panda3D 库 显示 的 图 片 
你 可 以 使 用 鼠标 来 倾斜 盒子 让 球 在 迷宫 中 前 进 。 
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如 果 一 切 运行 正常 ，Panda3D 的 环境 搭建 也 一 切 顺 利 ， 那 么 恭喜 你 ， 现 在 就 可 以 开始 使 用 
这 个 库 了 。 


下 面 是 一 个 来 自 于 Panda3D 文档 的 示例 程序 ， 将 它 保存 为 pandal.py: 


from direct.showbase.ShowBase import ShowBase 




















class MyApp(ShowBase): 


def _ init (self): 
ShowBase.__init__(self) 


# 加 载 环 境 模型 
self.environ = self.loader.loadModel("models/environment") 


# 为 模型 重 定 父 级 以 泻 染 


self.environ.reparentTo(self.render) 


# 对 模型 应 用 尺度 和 位 置 变换 
self.environ.setScale(0.25, 0.25, 0.25) 
self.environ.setPpos(-8, 42, 0) 


app = MyApp() 
app.run() 


使 用 下 面 的 命令 运行 它 : 


$ ppython panda1.py 

Known pipe types : 
osxGraphicsPipe 

(all display modules loaded.) 


运行 后 会 弹出 一 个 窗口 ， 如 图 A-6 所 示 。 当 前 的 石头 和 树 是 悬浮 在 半空 中 的 。 点 击 Next 
按钮 ， 按 照 教 程 继续 ， 它 会 引导 你 解决 这 个 问题 。 









































图 A-6: 使 用 Panda3D 库 显 示 的 适应 窗口 大 小 的 图 片 
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下 是 其 他 一 些 可 以 在 Python 中 使 用 的 3D 包 。 











A 


Pyt 


Blender (http://www.blender.org/) 

Blender 是 一 个 免费 的 3D 动画 和 游戏 的 生成 器 。 当 你 从 http:/www.blender.org/download/ 
F 载 并 安装 了 它 后 ， 它 会 绑 定 一 个 自 带 的 Python 3。 

Maya (http://www.autodesk.com/products/maya/overview) 

Maya 是 一 个 商用 的 3-D 动画 和 图 形 处 理 系 统 。 它 也 会 绑 定 一 个 自 带 的 Python， 目 前 绑 
定 的 是 Python 2.6。Chad Vernon 编写 了 Python Scripting for Maya Artists (http://www. 

chadvernon.com/blog/resources/python-scripting-for-maya-artists/)， 你 可 以 在 网 上 免费 下 

载 。 如 果 你 在 网 上 搜索 Python 和 Maya， 可 以 找到 许多 其 他 资源 ， 包 括 一 些 视频 资料 ， 
它们 有 些 是 免费 的 ， 有些 可 能 是 付费 的 。 

Houdini (https:/www.sidefx.com/) 

Houdini 是 一 个 商用 系统 ， 但 你 可 以 下 载 它 的 一 个 免费 版 本 Apprentice。 和 其 他 动画 包 

一 样 ， 它 也 有 自己 绑 定 的 Python (http://www.sidefx.com/docs/houdini13.0/hom/)。 


.4 ” 平面图、 曲线 图 和 可 视 化 


hon 是 目前 绘制 平面 图 、 曲 线 图 以 及 进行 数据 可 视 化 的 最 佳 解决 方法 。 它 在 科学 研究 中 















































尤其 受到 欢迎 ， 你 可 以 在 附录 C 了 解 相 关 应 用 。Python 的 官方 网 站 上 关于 可 视 化 有 一 些 概 


论 ; 





生 内 容 (https://wiki.python.org/moin/NumericAndScientific/Plotting)。 在 这 里 我 想 花 一 点 








时 i 


A. 


司 做 一 些 额 外 介绍 。 


4.1 matplotlib 














使 用 下 面 的 命令 可 以 免费 安装 matplotltb 2D 绘图 库 : 


$ pip install matplotlib 














官网 图 片 库 (http://matplotlib.org/gallery.html) 中 的 例子 展示 了 matplotlib 的 应 用 范围 之 


广 。 我 们 使 用 和 之 前 一 样 的 程序 来 展示 图 片 ( 如 图 A-7 所 示 )， 这 里 只 是 为 了 看 看 需要 编 






































写 的 代码 以 及 显示 结果 如 何 : 


import matplotlib.pyplot as plot 
import matplotlib.image as image 


img = image.imread('oreilly.png') 
plot.imshow(img) 
plot.show() 
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Figure 1 
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图 A-7: 使 用 matplotlib 库 显 示 的 图 片 


你 可 以 在 附录 C 中 看 到 更 多 关于 matplotlib 的 内 容 ， 它 与 NumPy 以 及 其 他 一 些 研 究 性 应 
用 关系 十 分 密切 。 





A.4.2 bokeh 


在 网 络 发 展 初 期 为 了 在 线 显 示 图 形 ， 开 发 者 们 需要 在 服务 器 端 将 其 生成 好 并 给 浏览 器 返 
回 对 应 的 URL。 但 如 今 ，JavaScript 的 表现 能 力 越 来 越 强 ， 一 些 像 D3 之 类 的 在 客户 端 生成 
图 形 的 工具 也 越发 流行 。 前 几 页 中 ， 我 曾 提 到 过 可 以 使 用 Python 搭建 前 - 后 端 框 架 用 于 展 
示 图 形 和 GUI。 一 款 名 为 bokeh (http://bokeh.pydata.org/en/latest/) 的 新 工具 将 Python 的 能 
力 (大 数据 集 、 易 于 使 用 ) 与 JavaScript (交互 性 、 图 形 绘制 延迟 小 ) 结合 了 起 来 。 它 臻 
力 于 大 数据 集 的 快速 可 视 化 。 
如 果 你 已 经 安装 过 bokeh 所 依赖 的 库 (NumPy、Pandas 和 Redis) ， 那 么 现在 可 以 通过 下 面 
一 行 简单 的 命令 来 安装 bokeh 

$ pip install bokeh 
(你 可 以 在 附录 C 看 到 NumPy 和 Pandas 的 作用 。) 


或 者 ， 你 也 可 以 从 Bokeh 官网 (http://bokeh.pydata.org/en/latest/docs/quickstart.html) 下 载 
并 一 口气 安装 所 有 所 需 内 容 。 尽 管 matplotlib 是 运行 在 服务 器 上 的 ，bokeh 主要 在 浏览 器 
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上 运行 ， 它 可 以 充分 利用 最 近 客 户 端 能 力 的 提升 。 点 击 官网 图 片 库 (http://bokeh.pydata. 
org/en/latest/docs/gallery.html) 中 的 图 片 可 以 进行 交互 式 查 看 ， 并 查阅 实现 该 效果 所 用 的 
Python 代码 。 


A.5 游戏 
Python 非常 适合 数据 处 理 ， 在 这 一 附录 中 ， 你 又 发 现 了 Python 在 处 理 多 媒体 上 的 强大 功 
能 。 那 么 关于 游戏 呢 ? 


没 错 ， 磁 巧 Python 还 是 一 个 绝 佳 的 游戏 开发 平台 。 使 用 Python 开发 游戏 的 书籍 不 计 其 数 ， 
例如 下 面 两 本 : 


。 AlSweigart 编写 的 JInvent Your Own Computer Games with Python (http://inventwithpython. 















































com) 
。 Horst Jens 编写 的 The Python Game Book (一 本 wiki 文档 式 的 书 ，http://thepythongamebook. 
com/en:start) 


Python 的 wiki 页 (https://wiki.python.org/moin/PythonGames) 上 包含 了 更 多 关于 使 用 
Python 开发 游戏 的 讨论 。 

最 著名 的 Python 游戏 开发 平台 要 数 pygame (http:/pygame.org/news.html) 了 。 你 可 以 
从 Pygame 官网 (http:/pygame.org/download. 让 上 下 载 对 应 平台 的 可 执行 安装 包 进 


行 安装 ， 并 阅读 pummel the chimp 游戏 的 逐 行 实例 (http://pygame.org/docs/tut/chimp/ 
ChimpLineByLine.html) 。 


A.6 音频 和 音乐 
Python 还 能 做 什么 ? 音频、 音乐 ? 或 者 让 我 的 猫 学 会 唱 Jingle Bell ? 
好 吧 ， 其 实 只 有 前 两 个 能 做 到 。 


标准 库 的 多 媒体 服务 (http://docs.python.org/3/library/mm.html) 下 有 一 些 基 本 的 音频 模块 ， 
当然 还 有 其 他 许多 第 三 方 模块 (https://wiki.python.org/moin/Audio) 可 以 使 用 。 


下 面 这 些 库 可 以 帮 你 生成 音乐 : 


。 pyknon (https://github.com/kroger/pyknon) 用 在 Pedro Kroger (CreateSpace) 的 Music 
for Geeks and Neds (https://github.com/kroger/pyknon) 一 书 中 ; 

。 mingus (https://code.google.com/p/mingus/) 是 一 个 音 序 器 ， 用 于 读 取 /生成 MIDI 文件 ; 

。 remix (http://echonest.github.io/remix/python.html)， 就 像 名 字 本 身上 暗示 的 一 样 ， 是 一 组 
泥 音 音 用 的 API。 它 的 应 用 之 一 是 morecowbell.dj (http://morecowbell.dj) 这 个 网 站 ， 它 能 

往 你 上 传 的 歌曲 中 添加 牛 铃 声 ， 
。 sebastian (https://github.com/jtauber/sebastian/) 是 一 个 用 于 音乐 理论 分 析 的 库 ， 
。 Piano (http:Wjugad2.blogspot.com/2013/04/play-piano-on-your-computer-with-python.html) 


可 以 让 你 用 键盘 来 弹 奏 不 同调 性 (例如 C、D、E、F、A、B) 的 音乐 。 
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最 后 ， 下 面 列 出 的 库 可 以 帮助 你 整理 你 的 音乐 集 或 访问 音乐 数据 : 





Beets (http://beets.radbox.org/) 用 于 管理 音乐 集 ; 

Echonest (http://developer.echonest.com/) 是 对 音乐 元 数据 进行 访问 用 的 API; 
Monstermash (http://karlgrz.com/monstermash-flask-zeromq-and-echonest-remix/) 用 于 对 
音乐 片段 进行 拼接 合成 ， 它 建立 在 Echonest、Flask、ZeroMQ 以 及 Amazon EC2 上 | 
Shiva (https://hacks.mozilla.org/2013/03/shiva-more-than-a-restful-api-to-your-music- 
collection/) 是 一 个 用 来 访问 音乐 集 的 RESTful API 和 服务 器 (https://github.com/tooxie/ 
shiva-server) ; 

下 载 一 个 album art (http://jameh.github.io/mpd-album-art/) 来 查找 匹配 你 的 音乐 。 
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附录 B 


工作 中 的 Python 





“生意 ! ”鬼魂 拒 紧 手 凄凉 地 说 道 , “我 为 什么 不 把 人 看 成 是 我 的 生意 的 一 部 


分 训 友 机 





查尔斯 .狄更斯 的 《圣诞 颂歌 》 
男性 商务 人 士 总 是 习惯 一 身 西装 戴 着 领带 。 但 不 知 为 何 ， 每 当 他 们 要 真正 开始 干 活 时 总 是 
磨 磨 足 足 的 ， 他 们 会 先 把 夹克 扔 到 椅 背 上 ， 然 后 解 开 领 带 ， 卷 起 袖口 ， 再 冲 些 咖啡 。 与 此 
同时 ， 女 员工 往往 已 经 默默 地 把 活 都 干 完了。 也 许 会 有 一 杯 拿 铁 相 伴 。 

在 实际 商业 活动 中 ， 我 们 会 使 用 到 前 面 曾 介绍 过 的 所 有 技术 一 一 数据 库 、 互 联网 、 系 统 和 
网 络 。Python 凭借 着 它 极 高 的 生产 力 被 广泛 应 用 于 企业 (http://opensource.com/life/13/11/ 
python-enterprise-jessica-mckellar) 和 创业 公司 (http://opensource.com/business/13/12/why- 

















python-perfect-startups ) 。 


在 商业 界 ， 人 们 曾 在 很 长 的 一 段 时 间 内 寻求 能 够 一 击 解决 遗产 问题 (legacy problem) 的 
银色 子弹 。 这 些 遗 产 问题 包括 : 互 不 兼容 的 文件 格式 、 隐 雇 难 懂 的 网 络 协议 、 开 发 语言 独 
占 以 及 文档 准确 性 普遍 不 高 。 然 而 今天 ， 我 们 已 经 可 以 看 到 一 些 科学 技术 开始 可 以 协同 工 
作 、 成 规模 发 展 。 通 过 采用 下 面 这 些 建议 ， 公 司 可 以 创建 更 快捷 、 更 便宜 且 更 易于 扩展 的 
应 用 : 

。 像 Python 一 样 的 动态 语言 

。 将 互联 网 作为 通用 GUI 

。 使 用 RESTful API 作为 独立 于 语言 的 服务 接 
。 关系 型 数据 库 和 NoSQL 数据 库 

。 大 数据 及 大 数据 分 析 

。 通过 “ 云 ” 进 行 部 署 ， 节 省 开支 
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B.1 Microsoft Office 套 件 


当今 商业 的 正常 运行 对 Microsoft Office 应 用 及 其 文件 格式 有 着 很 强 的 依赖 性 。Python 中 有 
一 些 可 以 对 Office 文件 进行 处 理 的 库 ， 但 它们 大 都 没什么 名 气 ， 甚 至 有 些 连 像样 的 文档 都 
没有 。 下 面 是 一 些 可 以 用 来 处 理 Office 文件 的 Python 库 的 例子 。 


。 docx (https://pypi.python.org/pypi/docx) 
这 个 库 可 以 用 于 创建 、 读 取 、 写 入 Microsoft Office Word 2007 及 以 上 使 用 的 .docx 文件 。 























。 python-excel (http:/www.python-excel.org/) 
这 个 库 有 一 份 PDF 教 程 (http://www.simplistix.co.uk/presentations/python-excel.pdf)， 
介绍 了 如 何 使 用 xlrd、xtwt 和 xlutils 模块 。Excel 还 可 以 对 逗号 分 隔 值 (Comma- 
Saparated Value，CSV) 格式 的 文件 进行 读 写 。 你 应 该 已 经 知道 如 何 使 用 csv 模块 处 理 
CSV 文件 了 。 











。 oletools (http:Wwww.decalage.info/python/oletools ) 
这 个 库 可 以 从 Office 格式 的 文件 中 抽取 数据 。 

下 这 些 模块 可 自动 化 处 理 Windows 应 用 : 

。 pywin32 (http://sourceforge.net/projects/pywin32/) 
这 个 模块 可 以 自动 化 处 理 许多 Windows 应 用 '。 但 是 它 仅 限 在 Python 2 环境 中 使 用 ， 而 
旦 文档 不 全 。 你 可 以 参考 博客 : http://www.galalaly.me/index.php/2011/09/use-python-to- 
parse-microsoft-word-documents-using-pywin32-library/ 和 http://www.blog.pythonlibrary. 























村 























org/2010/07/16/python-and-microsoft-office-using-pywin32/。 


。 pywinauto (https://code.google.com/p/pywinauto/) 
这 个 模块 也 是 用 于 自动 化 处 理 Windows 应 用 的 ， 同 样 限 制 于 Python 2。 使 用 方法 可 
以 参考 这 篇 博客 : https://techsaju.wordpress.com/2013/03/06/using-python-pywinauto-for- 
automating-windows-gui-applications/。 























。 swapy (https://code.google.com/p/swapy/) 
swapy 可 以 直接 根据 用 户 的 原始 操作 生成 对 应 的 pywinauto 的 代码 。 

OpenOffice (http://www.openoffice.org/) 是 一 款 开 源 的 Office 应 用 的 替代 品 。 它 可 以 
在 Linux、Unix、Windows 以 及 OS X 上 运行 ， 可 以 对 Office 格式 的 文件 进行 读 写 操作 。 
OpenOffice 自身 也 绑 定 了 供 自己 使 用 的 Python 3。 你 可 以 通过 PyUNO 库 (http://www. 
openoffice.org/udk/python/python-bridge.html) 对 OpenOffice 进行 Python 编程 (https://wiki. 
openoffice.org/wiki/Python ) 。 

OpenOffice 是 由 Sun Microsystems 开发 的 ， 当 甲骨 文 将 它 收 购 之 后 ， 许 多 用 户 害怕 未 
来 会 无 法 免费 使 用 这 款 产品 。LibreOffice (https://www.libreoffice.org/) 因此 横 空 出 
世 。DocumentHacker (https://documenthacker.files.wordpress.com/2013/07/writing_ 





























注 1: 类 似 于 Windows 中 宏 的 作用 ， 它 可 以 记录 你 执行 的 可 重复 性 操作 便于 以 后 复 用 。 一 一 译 者 注 
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documents-_for_software_engineers_v0002.pdf) 描述 了 如 何 使 用 Python 的 UNO 库 对 
LibreOffice 进行 编程 。 

为 了 对 Office 文件 进行 读 写 操 作 ，OpenOffice 和 LibreOffice 不 得 不 对 Microsoft 的 文件 格 
式 进行 逆向 解析 ， 这 个 过 程 难度 可 不 小 。 通 用 Office 转换 器 (Universal Office Converter， 
http://dag.wiee.rs/home-made/unoconv/) 就 依赖 于 OpenOffice 和 LibreOffice 中 的 UNO 库 。 
这 个 转换 器 可 以 转换 多 种 文件 格式 : 文档 、 电 子 表格 、 图 表 和 演示 文稿 。 

你 可 以 使 用 python-magic (https://github.com/ahupp/python-magic) 对 格式 未 知 文件 中 的 基 
些 字 节 序 进行 分 析 从 而 猜测 出 它 的 具体 格式 。 

python open document 库 (http://appyframework.org/pod.html) 允许 你 根据 模板 格式 提供 对 
应 的 Python 代码 来 创建 动态 文档 。 
Adobe 的 PDF 格式 在 商业 中 也 十 分 常见 ， 尽 管 它 并 不 属于 Micorsoft 格式 家 族 。ReportLab 
(http://www.reportlab.com/opensource/) 是 一 个 基于 Python 的 PDF 文件 生成 器 ， 它 包含 一 
个 开源 版 本 和 一 个 商用 版 本 。 如 果 你 需要 用 Python 编辑 一 个 PDF 文件 的 话 ， 也 许可 以 


从 StackOverflow (http://stackoverflow.com/questions/1180115/add-text-to-existing-pdf-using- 
python) 获取 些 帮助 。 


B.2 执行 商业 任务 


无 论 需要 做 什么 事情 ， 你 几乎 都 可 以 找到 对 应 的 Python 模块 来 帮助 你 。 访 问 PyPI (https:// 
pypipython.ore/pypi) 并 将 你 想 要 搜索 的 内 容 殴 进 搜索 框 就 可 以 了 。 你 可 能 会 对 其 中 一 些 
与 商业 任务 相关 的 模块 有 兴 

。 使 用 Fedex (https://github.com/gtaylor/python-fedex) 或 UPS (https://github.com/openlabs/ 
PyUPS) 运送 货物 。 

。 使 用 stamps.com (https://github.com/jzempel/stamps) API 邮递 。 

。 阅读 关于 Python for business intelligence (http://www.slideshare.net/Stiivi/python-business- 
intelligence-pydata-2012-talk) 的 讨论 。 

。 爱 乐 压 咖啡 机 在 Anoka 的 畅销 是 正常 的 消费 行为 还 是 有 什么 内 情 ? Cubes (http://cubes. 
databrewery.org/) 是 一 个 可 以 进行 联机 分 析 处 理 (Online Analytical Processing，OLAP) 
的 网 络 服务 器 ， 它 同时 还 是 一 个 数据 浏览 器 ， 可 以 帮 你 对 上 述 问题 进行 分 析 。 

。 OpenERP (https:/www.openerp.com/) 是 一 个 大 型 的 商用 企业 资源 计划 (Enterprise 
Resource Planning, ERP) 系统 。 它 是 由 Python 和 JavaScript 编写 的 , 拥有 数 千 个 扩展 模块 。 


B.3 ”处理 商 业 数 据 


商业 界 对 数据 情 有 独 钟 。 但 不 幸 的 是 ， 它 们 总 是 莫名 其 妙 地 制造 麻烦 让 数据 变 得 难以 使 用 。 

电子 表格 是 一 项 伟大 的 发 明 ， 随 着 时 间 的 推移 商业 界 对 它 愈 发 痴迷 。 许 多 非 程序 员 被 诱骗 
去 编程 ， 仅 仅 因为 他 们 编码 的 被 称 作 宏 (macro) 而 不 是 程序 。 但 就 如 同 字 宙 在 不 断 扩 张 
一 样 ， 数 据 也 在 飞速 膨胀 。 旧 版 本 的 Excel 最 多 支持 65 536 行 数据 ， 即 使 是 新 版 本 也 只 不 
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了 单一 计算 机 所 能 承载 的 最 大 值 ， 就 像 
不 再 适用 ， 你 亚 需 新 的 层级 结构 、 新 的 








过 能 支持 百 万 行 。 当 一 个 企业 所 拥有 的 数据 量 超过 
企业 员工 数 过 百 一 样 一 一 瞬间 你 会 发 现 旧 框 架 变 得 
媒介 以 及 新 的 通信 方式 。 

海量 数据 处 理 程序 的 诞生 并 不 是 由 单机 上 庞大 的 数据 量 导 致 的 ， 而 是 由 于 不 同 来 源 的 数据 
倾注 到 单一 业务 中 肾 合 导致 的 。 关 系 型 数据 库 可 以 同时 处 理 百 万 行 数据 而 不 月 涡 ， 但 这 种 
性 能 也 只 有 在 集中 写 入 或 更 新 数据 时 才能 达到 。 旧 的 纯 文 本 文件 或 二 进 制 文件 可 以 增长 
到 GB 级 别 的 大 小 ， 但 如 果 你 需要 一 口气 对 它 进行 全 面 处 理 的 话 ， 就 必须 有 足够 大 的 内 存 
(否则 只 能 分 块 读 取 到 内 存 中 进行 处 理 )。 传 统 的 桌面 程序 并 不 是 为 解决 这 些 问题 而 设计 
的 。 但 像 Google 和 亚马逊 这 样 的 公司 则 不 得 不 去 寻找 大 规模 处 理 数 据 的 解决 方案 。Netflix 
(http://techblog.netflix.com/2013/03/python-at-netflix.html) 就 是 一 个 例子 ， 它 建立 在 亚马逊 
的 AWS 云 系 统 上 ， 使 用 Python 将 RESTful API、 信 息 安 全 、 部 署 调度 、 数 据 库 有 机 地 结 
合 了 起 来 ， 提 供 了 一 套 完 整 的 解决 方案 。 


B.3.1 提取、 转换、 加载 


数据 就 像 一 座 冰 山 ， 复 杂 的 操作 都 埋藏 在 水 下 。 其 中 占 最 大 部 分 的 、 同 时 也 是 最 重要 的 是 
关于 获取 数据 的 操作 。 企 业 中 对 于 处 理 数 据 常用 的 术语 是 提取 、 转 换 、 加 载 (Extracting， 
Transforming，Loading)， 也 就 是 所 谓 的 ETL。 类 似 的 同义词 还 有 data munging 或 data 
wrangling， 给 人 一 种 驯服 凶猛 野兽 的 感觉 ?， 比 喻 得 还 算 恰 当 。 现 在 看 来 ， 这 似乎 只 是 一 个 
解决 了 的 工程 问题 ， 但 其 实 如 何 优 雅 巧妙 地 处 理 海 量 数据 还 是 需要 一 定 艺 术 灵 感 的 。 附 录 
C 会 涉及 更 多 关于 数据 科学 的 内 容 ， 这 是 许多 开发 者 需要 花费 大 部 分 时 间 挣 扎 的 地 方 。 

如 果 你 看 过 《绿野仙踪 》， 可 能 还 记得 (除了 飞天 猴 外 ) 快 结尾 的 部 分 : 善良 的 巫师 告诉 
多 葛 西 ， 其 实 她 只 要 殴 殴 她 的 红 鞋 子 就 可 以 回 到 堪萨斯 的 家 了 。 尽 管 当时 我 还 小 ， 但 还 是 
有 一 种 “ 拖 了 这 么 久 ， 她 终于 告诉 多 葛 西 了 ! ”的 感觉 。 事 后 回顾 ， 我 意识 到 ， 如 果 女 巫 
早点 就 把 这 个 诀窍 告诉 多 葛 西 的 话 ， 那 这 电影 就 没 法 拍 了 。 

但 在 这 里 我 们 讨论 的 不 是 电影 ， 而 是 商业 。 在 商业 ， 能 把 任务 尽快 完成 是 一 件 好 事 。 所 
以 ， 我 想 要 在 这 里 告诉 你 们 一 些 鹤 门 。 你 每 天 工作 中 用 来 处 理 数 据 的 大 多 数 工 具 都 在 这 本 
书 的 前 面 有 所 涉及 ， 包 括 高 度 抽象 的 数据 结构 ， 例 如 字典 、 对 象 ， 成 千 上 万 个 标准 库 和 第 
三 方 库 以 及 一 个 满 是 高 手 的 社区 ， 离 你 只 有 Google 一 下 的 距离 。 

如 果 你 是 一 个 从 事 商务 的 程序 员 ， 那 你 每 天 的 工作 流程 几乎 都 光 不 开 下 面 这 些 步 又 : 


(1) 从 奇怪 格式 的 文件 和 数据 库 中 抽取 出 目标 数据 ， 

(2) 清洗 数据 ， 包 括 各 种 苗 差 事 ， 你 需要 和 各 种 各 样 的 对 象 打 交道 ， 
(3) 进行 转换 工作 ， 例 如 日 期 的 转换 、 时 间 的 转换 以 及 字符 集 的 转换 ， 
(4) 真正 开始 处 理 数 据 ; 

(5) 将 结果 数据 存储 在 文件 或 者 数据 库 中 ， 

(6) 回 到 第 一 步 重新 继续 ， 给 数据 抹 上 肥 电 ， 清 洗 ， 一 志 又 一 遍 。 


举 个 例子 : 设想 你 需要 将 电子 表格 中 的 一 些 数据 挪 到 数据 库 里 。 一 种 可 行 的 方式 是 将 电子 












































































































































































































































注 2: munging 和 wrangling 有 争吵、 斗争 的 意思 。 一 一 译 者 注 
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表格 存储 为 CSV 格式 ， 然 后 用 第 8 章 介 绍 过 的 Python 库 进 行 处 理 。 或 者 也 可 以 搜索 看 看 
有 没有 可 以 直接 读 取 二 进 制 电子 表格 文件 的 Python 模块 。 你 的 手 会 自然 而 然 地 在 Google 
里 融入 python exceL， 找 到 像 Working with Excel files in Python (http:Wwww.python-excel. 
org/) 这 样 的 网 站 。 接 着 你 可 以 使 用 pip 安装 你 感 兴趣 的 包 ， 然 后 定位 Python 的 数据 库 弛 
动 为 后 续 工 作 做 好 准备 。 第 8 章 也 提 到 过 SQLAlchemy 以 及 直接 与 底层 数据 库 打 交道 的 四 
动 。 准 备 工 作 就 绪 ， 现 在 我 们 可 以 在 这 两 者 之 间 编 写 点 代码 了 ， 这 里 才 是 Python 的 数据 结 
构 以 及 库 真 正 开始 帮 你 节省 时 间 的 地 方 。 


首先 来 看 一 个 例子 ， 之 后 我 们 会 尝试 使 用 一 些 库 来 简化 其 中 某 些 步 又。 我 们 需要 读 取 一 个 
CSV 文件 ， 然 后 以 某 一 列 的 值 作 为 键 ， 将 具有 相同 键 的 数据 进行 聚合 (这 里 使 用 加 法 聚 
合 )。 如 果 在 SQL 中 进行 这 些 操作 的 话 ， 会 用 到 SELECT、JOIN、GROUP BY 等 命令 。 


首先 关于 待 处 理 文件 ，zoo.csv， 包 含 以 下 几 列 内 容 : 动物 种 类 、 咬 伤 游 客 的 次 数 、 处 理 咬 
伤 需 要 缝合 的 针 数 以 及 为 了 防止 游客 告知 当地 媒体 所 支付 的 赔偿 金 。 

animal ,bites,stitches,hush 

bear ,1,35 ,300 

marmoset ,1,2,250 

bear ,2 ,42,500 

eLk ,1,30 ,100 

weasel,4,7,50 

duck,2,0,10 


我 们 想 要 了 解 到 底 哪 种 动物 给 我 们 带 来 的 损失 最 多 ， 因 此 需要 计算 在 每 一 种 动物 身上 花费 
的 总 的 封口 费 数目 (至 于 如 何 处 理 咬 伤 和 如 何 颖 针 就 交 给 实习 医生 了 ， 不 是 我 们 程序 员 能 
力 所 及 )。 我 们 需要 使 用 8.2.1 节 介绍 过 的 csv 模块 以 及 5.5.2 节 介 绍 过 的 Counter。 将 下 面 
的 代码 存储 为 zoo_counts.py: 


import csv 
from collections import Counter 
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counts = Counter() 
with open('zoo.csv', 'rt') as fin: 

cin = csv.reader(fin) 

for num, row in enumerate(cin): 

if num > 0: 
counts[row[0]] += int(row[-1]) 

for animal, hush in counts.items(): 

print("%10s %10s" % (animal, hush)) 


我 们 直接 跳 过 第 一 行 ， 因 为 第 一 行 仅仅 提供 了 每 列 的 名 称 ， 没 有 任何 有 实际 价值 的 数据 。 
counts 是 一 个 Counter 对 象 ， 它 首先 会 将 每 一 种 动物 对 应 的 值 (封口 费 ) 初始 化 为 0。 此 
外 还 对 输出 结果 进行 了 右 对 齐 调整 。 看 一 下 输出 结果 : 


$ python zoo_counts.py 
































duck 10 
elk 100 

bear 800 
weasel 50 
marmoset 250 
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最 让 我 们 操心 的 果然 是 能 ! 它 一直 就 是 我 们 主要 怀疑 的 对 象 ， 这 下 有 数据 为 证 了 。 
现在 试 着 使 用 一 个 数据 处 理工 具 Bubbles (http:Wbubbles.databrewery.org/) 来 重复 上 面 的 工 
作 。 你 可 以 通过 下 面 这 条 命令 来 安装 它 : 


$ pip install bubbles 






























































它 依 赖 SQLAlchemy， 如 果 你 没有 安装 过 的 话 可 以 通过 pip instaLL sqlalchenmy 安装 。 下 
面 是 我 们 根据 文档 (http://pythonhosted.org/bubbles/install.html#quick-start) 改写 的 测试 程序 
(命名 为 bubblesl.py) : 


import bubbles 




















p = bubbles.Pipeline() 

p.source(bubbles.data object('csv_source', 'zo0o.csv', infer_ fields=True)) 
p.aggregate('animal', 'hush') 

p.pretty_print() 


真相 只 有 一 个 ! 接 下 来 就 是 见证 真相 的 时 刻 了 : 


$ python bubbLes1.py 





2014-03-11 19:46:36,806 DEBUG calling aggregate(rows) 
2014-03-11 19:46:36,807 INFO called aggregate(rows) 
2014-03-11 19:46:36,807 DEBUG calling pretty_print(records) 


+-------- +-------- +------------ + 
lanimal |hush_sum|record_count| 
+-------- +-------- +------------ + 
|duck | 10| 1| 
|weaseL | 50| 1| 
|bear | 800 | 2| 
lelk | 100 | 1| 
|marmoset| 250| 1| 
+-------- +-------- +------------ + 


2014-03-11 19:46:36,807 INFO called pretty_print(records) 


Bubbles 的 文档 中 提供 了 将 调试 信息 隐藏 掉 的 方法 ， 甚 至 还 包括 改变 输出 表格 格式 的 方法 。 


对 比 这 两 个 例子 ， 我 们 发 现 bubbles 例子 中 我 们 仅仅 使 用 了 一 个 函数 调用 (aggregate) 就 
ed 计数 CSV 文件 的 全 部 工作 。 根 据 需 求 的 不 同 ， 数 据 处 理工 具有 时 
为 你 市 省 出 大 量 时 间 。 


更 现实 的 例子 中 ，zoo 文件 可 能 包含 几 千 行 记录 (这 个 动物 | 其 至 包含 拼 
写 错误 (例如 把 bear 写成 了 bare)， 或 者 数字 中 无 意 添加 了 分 隔 符 ,等 等 等 。 如 果 你 想 要 
更 多 关于 如 何 使 用 Python 和 Java 进行 实际 数据 处 理 的 例子 ， 我 推荐 Greg Wilson 的 Data 
Crunching: Solve Everyday Problems Using Java, Python, and More (Pragmatic Bookshelf, 
http://shop.oreilly.com/product/9780974514079.do)。 


数据 清理 工具 可 以 节省 你 许多 时 间 ， 而 Python 中 恰好 就 有 许多 这 样 的 工具 。 再 举 个 例 
子 ，PETL (http://petl.readthedocs.org/en/latest/) 可 以 对 表格 中 的 数据 进行 行列 提取 以 及 
重 命名 。 它 的 相关 产品 (http://petl.readthedocs.org/en/latest/related_work.html) 网 页 列 出 了 
许多 有 用 的 模块 和 产品 。 附 录 C 里 有 一 些 关 于 常用 的 数据 处 理工 具 的 讨论 ， 例 如 Pandas、 
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NumPy 以 及 IPython。 尽 管 这 些 工 具 现在 仍 主要 被 科学 研究 者 所 熟知 ， 但 它们 在 金融 工作 
者 以 及 数据 处 理 员 之 间 也 开始 愈加 流行 。2012 年 Pydata 会 议 上 ，AppData (http:/www. 
computerworld.com/article/2492915/big-data/python--big-data-s-secret-power-tool.html) 介绍 了 
上 述 三 款 工具 以 及 其 他 的 一 些 Python 工具 是 如 何 帮 助 我 们 每 日 处 理 15TB 的 数据 的 。 毫 无 
疑问 ，Python 有 足够 的 能 力 处 理 海量 的 实际 数据 。 


B.3.2 ”额外 信息 源 


有 时 你 可 能 需要 使 用 一 些 来 源 于 企业 之 外 的 数据 。 下 面 是 一 些 可 以 使 用 的 商业 和 政府 提供 
的 数据 源 。 

















data.gov (https://www.data.gov/) 
数 千 个 数据 集 和 数据 处 理工 具 的 门户 。 它 的 API (https://www.data.gov/developers/apis) 
是 搭建 在 一 套 Python 数据 管理 系统 一 一 CKAN (http://ckan.org/) 上 的 。 


Opening government with Python (http://sunlightfoundation.com/) 


从 这 里 获取 相关 视频 (https:Wwww.youtube.com/watch?v=FTwjUL6Gq4A) 及 幻灯 片 
(http:/goo.gl/8Yh3s ) 。 











python-sunlight (http://python-sunlight.readthedocs.org/en/latest/) 
用 于 访问 Sunlight API (http://sunlightfoundation.com/api/) 的 库 。 





froide (http://stefanw.github.io/froide/) 

一 个 基于 Django 的 管理 信息 自由 请 求 (Freedom of Information Request) 的 工具 。 
30 个 寻找 公开 数据 的 网 址 (http://blog.visual.ly/data-sources/) 

一 些 有 用 的 链接 。 








B.4 金融 中 的 Python 


最 近 ， 金 融 界 对 于 Python 的 兴趣 愈 发 浓烈 。 数 据 分 析 专 家 们 (quant) 正在 搭建 新 一 代 的 金 
融 工 具 ， 他 们 或 在 附录 C 中 提 到 的 Python 工具 的 基础 上 进行 改写 ， 或 另起炉灶 从 头 编写 。 





Quantitative economics (http://quant-econ.net/) 
这 是 一 个 用 于 建立 经 济 模型 的 工具 ， 包 含 许多 数学 公式 和 Python 代码 。 


Python for finance (http:/www.python-for-finance.com) 








以 Yves Hilpisch 的 书 Derivatives Analytics with Python: Data Analytics, Models, Simulation, 
Calibration, and Hedging (Wiley) 为 代表 ， 介 绍 Python 在 金融 中 的 应 用 。 

Quantopian (https:Wwww.quantopian.comy) 

Quantopian 是 一 个 交互 式 网 站 ,你 可 以 在 上 面 编写 自己 的 Python 代码 来 整理 股票 的 历 
史 数 据 ， 进 行 后 验 测试 。 

PyAlgoTrade (http://gbeced.github.io/pyalgotrade/) 

这 也 是 一 个 对 股 要 进行 后 验 测试 的 工具 ， 只 不 过 PyAlgoTrade 运行 在 你 自己 的 计算 机 
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上 ， 无 需 联 网 。 
。 Quandl (http:Wwww.quandl.comy) 
你 可 以 使 用 Quandl 在 数 百 万 金融 数据 集中 进行 搜索 。 
。 Ultra-fnance (https://code.google.com/p/ultra-finance/) 
实时 的 股票 信息 库 。 
。 Python for Finance (O’Reilly, http://shop.oreilly.com/product/0636920032441.do) 
Yves Hilpisch 的 一 本 关于 如 何 使 用 Python 进行 金融 建 模 的 书 。 


B.5 商业 数据 安全 性 


在 商业 中 ， 安 全 性 永远 是 一 个 重要 的 问题 。 关 于 这 方面 的 内 容 可 以 写 整整 一 本 书 ， 事 
实 上 也 确实 有 许多 关于 此 的 书 ， 因 此 在 这 里 我 们 不 多 涉及 ， 仅 仅 提 几 个 与 Python 有 关 
的 小 贴 士 。 


11.2.6 节 中 介绍 了 scapy， 一 款 用 Python 编写 的 网 络 包 内 容 查看 器 。 它 经 常用 于 网 络 攻击 
分 析 中 。 


Python Security (http:Wwww.pythonsecurity.org/) 网 站 上 有 许多 关于 安全 性 的 话题 ， 包 括 
Python 中 一 些 与 安全 加 密 相 关 的 模块 以 及 使 用 技巧 。 


TJ O'Connor 的 书 Violent Python: A Cookbook for Hackers, Forensic Analysts, Penetration Testers 
and Security Engineers (http://shop.oreilly.com/product/9781597499576.do，Syngress) 中 广泛 
介绍 了 Python 及 计算 机 安全 方面 的 内 容 。 


B.6 地 图 


地 图 具有 很 高 的 商业 价值 ， 而 Python 又 非常 善于 绘制 地 图 ， 所 以 我 们 会 在 这 方面 多 花 点 
篇 幅 介 绍 。 高 层 们 都 喜欢 图 表 ， 如 果 你 能 迅速 为 你 们 企业 的 官网 绘制 出 一 张 漂亮 的 展示 地 
图 ， 他 们 一 定 会 对 你 有 所 好 感 。 


在 互联 网 发 展 初期 我 就 曾 访问 过 Xerox 旗下 的 一 个 地 图 制作 网 站 ， 当 时 还 处 于 试验 阶 
段 。 而 随后 像 Google Maps 这 样 的 大 网 站 的 上 线 带 来 了 一 场 新 的 革命 〈 同 经 典 的 那 句 “为 
什么 我 就 没有 想到 这 个 点 子 挣 上 几 百 万 呢 ? “)。 再 到 现在 ， 处 处 可 见地 图 和 基于 地 理 位 置 
的 服务 (location-based service) ， 它 们 在 移动 设备 中 尤为 有 用 。 


关于 地 图 的 许多 术语 的 意思 ， 全， 例如 地 图 绘制 mapping)、 制 图 学 
(cartography)、GIS (地 理 信息 系统 ，Geographic a System)、GPS (全 球 
定位 系统 Global Positioning System)、 地 理 空间 分 析 (geospatial analysis)， 等 等。 
Geospatial Python (http://geospatialpython.com/2013_11_01_archive.html) 上 的 博客 中 有 
一 张 描述 “无 所 不 能 (800-pound gorilla)” 的 系统 
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(projections) 一 一 以 及 它 周 边 系统 的 图 片 (图 中 用 猩猩 来 表示 这 个 系统 ”)。 它 们 大 多 提供 
了 Python 接口 。 我 们 会 对 其 中 的 一 些 进行 讲解 ， 就 从 最 简单 的 地 图 格式 讲 起 。 


B.6.1 格式 

地 图 的 世界 中 有 许多 不 同 的 表示 格式 : 向 量 ( 线 )、 栅 格 (图 片 )、 元 数据 〈 词 ) 以 及 它们 
之 间 的 不 同 组 合 。 

Esri 是 开发 地 理 系统 的 先驱 ， 在 20 年 前 发 明了 shapefile 格式 。 一 个 shapefile 格式 的 文件 
通常 包含 了 多 个 子 文件 ， 其 中 至 少 需要 包含 下 面 这 些 ， 






















































































。 .shp 
“形状 ”( 向 量 ) 信息 
。 .shx 
形状 索引 
。 .dbf 
属性 数据 库 
下 面 列 出 了 一 些 Python 中 用 于 处 理 shapefile 文件 的 有 用 的 模块 : 

















。 pyshp (https://code.google.com/p/pyshp/) 是 一 个 纯 Python 编写 的 shapefile 库 ， 

。 shapely (http://toblerity.org/shapely/) 可 以 处 理 与 地 理 位 置 相关 的 问题 ， 例 如 :“ 这 座 小 
镇 里 哪些 房子 位 于 50 年 洪水 线 上 ? ” 

。 fiona (https://github.com/Toblerity/Fiona) 包含 了 用 于 处 理 shapefile 以 及 其 他 向 量 格式 
文件 的 OGR 库 ， 

。 kartograph (http://kartograph.org/) 可 以 将 shapefile 格式 的 文件 转化 为 便于 在 服务 器 端 
或 客户 端 上 使 用 的 SVG 格式 ， 

。 basemap (http://matplotlib.org/basemap/) 使 用 matplotlib 在 地 图 上 绘制 2-D 数据 ， 

。 cartopy (http://scitools.org.uk/cartopy/docs/latest/) 使 用 matplotlib 和 shapety 绘制 地 图 。 


为 了 便于 之 后 讲解 示例 ， 我 们 需要 先 获 取 一 个 shapefile 格式 的 文件 。 访 问 Natural Earth 上 
的 1:110m Cultural Vectors page (http://www.naturalearthdata.com/downloads/110m-cultural- 
Vectors/)， 在 “Admin 1 - States and Provinces” 一 栏 下 ， 点 击 绿 色 的 download states and 
provinces (http:/www.naturalearthdata.com/http/www.naturalearthdata.com/download/110m/ 
cultural/ne_110m_admin_1_states_provinces.zip) 框 可 以 下 载 得 到 一 个 压缩 文件 。 下 载 完成 
后 将 它 解 压 ， 你 应 该 可 以 看 到 下 面 列 出 的 这 些 文件 : 

ne_110m_admin_1_states_provinces_shp.README.html 

ne_110m_admin_1_states_provinces_shp.sbn 

ne_110m _admin_1_states_provinces_shp.VERSION. txt 

ne_110m _admin_1_states_provinces_shp.sbx 


ne_110m admin 1_states_provinces_shp.dbf 
ne_110m admin 1_states_provinces_shp.shp 













































































: 前 文 800-pound gorilla 在 英文 中 有 无 所 不 能 、 强 大 的 意思 ， 图 片 使 了 双关 。 一 一 译 者 注 
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ne_110m_admin_1_states_provinces_shp.prj 
ne_110m_admin_1_states_provinces_shp.shx 


下 的 例子 会 使 用 到 这 些 文件 。 








后 


B.6.2 绘制 地 图 
你 需要 安 装 下 面 这 文 个 库 来 读 取 shapefile 文件 * 


$ pip install pyshp 


现在 该 看 看 程序 了 。 下 面 是 我 根据 Geospatial Python 博客 (http://geospatialpython.com/2010/12/ 
rasterizing-shapefiles.html) 修改 得 到 的 代码 ，mapl.py: 


def display_shapefile(name, iwidth=500, iheight=500): 
import shapefile 
from PIL import Image, ImageDraw 
r = shapefile.Reader(name) 
mleft, mbottom, mright, mtop = r.bbox 
# map units 
mwidth = mright - mleft 
mheight = mtop - mbottom 
# scale map units to image units 
hscale = iwidth/mwidth 
vscale = iheight/mheight 
img = Image.new("RGB", (iwidth, iheight), "white") 
draw = ImageDraw.Draw(img) 
for shape in r.shapes(): 
pixels = [ 
(int(iwidth - ((mright - x) * hscale)), int((mtop - y) * vscale)) 
for x, y in shape.points] 
if shape.shapeType == shapefile.POLYGON: 
draw.polygon(pixels, outline='black') 
elif shape.shapeType == shapefile.POLYLINE: 
draw.line(pixels, fill='black') 
img.show() 














下 

















if _ name == ' main _ 
import sys 
display_shapefile(sys.argv[1], 700, 700) 
上 面 的 代码 读 取 了 shapefile 文件 ， 并 遍历 了 其 中 的 图 形 库 。 我 们 只 关注 其 中 两 种 图 形 类 
型 : 首尾 相连 的 多 边 形 和 首尾 不 相连 的 折线 。 上 面 的 代码 仅仅 是 我 简单 看 了 一 眼 pyshp 的 
文档 一 遍 编写 出 来 的 ， 所 以 我 并 不 百 分 百 保证 它 能 正常 运行 。 但 往往 万 事 开 头 难 ， 不 要 怕 
出 错 ， 出 错 了 慢 慢 修改 即 可 。 


好 了 ， 运 行 一 下 上 面 的 代码 。 需 要 传 入 的 参数 是 shapefile 文件 的 原始 文件 名 ， 不 添加 任何 
扩展 名 : 


$ python map1.py ne_110m_admin_1_states_provinces_shp 


你 应 该 会 看 到 类 似 下 面 图 B-1 所 示 的 结果 。 
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图 B-1: 原始 地 图 





因 ， 它 确实 成 功 画 出 了 一 幅 类 似 美国 地 图 的 图 








， 但 似乎 存在 些 问题 : 








。 阿拉 斯 加 和 夏威夷 的 地 图 像 是 被 奖 皮 的 猫 搜 了 一 条 线 缠绕 了 起 来 ， 这 显然 是 个 bug; 





。 地 图 被 压 遍 了， 我 们 需要 对 原始 图 做 映射 
。 图 片 不 太美 观 ， 我 们 需要 做 些 样 式 (style) 




















(projection) 处 理 ， 
修改 。 





关于 上 述 第 一 点 : 显然 是 因为 我 草草 编写 的 代码 逻辑 出 现 了 问题 ， 应 该 怎么 改 呢 ? 第 12 
章 曾 介绍 了 一 些 开发 建议 ， 包 括 如 何 调试 bug， 但 这 里 我 们 可 以 考虑 一 些 其 他 途径 。 比 如 
可 以 不 断 添加 一 些 测试 代码 直到 定位 并 解决 问题 ， 或 者 可 以 干脆 使 用 别 的 绘图 库 试 试 。 也 























许 有 些 抽象 能 力 更 高 的 库 可 以 一 口气 解决 上 下 








i 所 有 问题 (零散 杂乱 的 线 、 压 缩 的 外 观 以 及 





原始 丑陋 的 样式 )。 
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看 是 其 他 一 些 可 选 的 Python 绘图 软件 。 
basemap (http://matplotlib.org/basemap/) 

基于 matplotlib， 可 以 一 层 一 层 地 绘图 以 及 添加 数据 。 

mapnik (http://mapnik.org/) 

以 C++ 编写 的 库 ， 提 供 了 Python 接口 ， 便 于 快速 开发 。 可 以 绘制 矢量 地 图 ( 线 ) 和 机 
格 地 图 (图 片 )。 

tilemill (https:/www.mapbox.com/tilemill/) 

一 个 基于 mapnik 的 地 图 设计 平台 。 

Vincent (http://vincent.readthedocs.org/en/latest/) 

一 个 从 Python 到 Vega (一 款 JavaScript 可 视 化 工具 ) 的 翻译 器 。 你 可 以 阅读 Mapping 
data in Python with pandas and vicent (http://wrobstory.github.io/2013/10/mapping-data- 
python.html) 这 篇 博客 学 习 如 何 使 用 。 

Python for ArcGIS (http://resources.arcgis.com/en/communities/python/) 

链接 到 Esri 的 商业 产品 ArcGIS 中 包含 的 Python 资源 。 

使 用 Python 进行 空间 分 析 (https://complex.luxbulb.org/howto/spatial-analysis-python) 
链接 到 相关 的 教程 、 包 以 及 视频 。 

使 用 Python 处 理 地 理 空间 数据 (https://conference.scipy.org/scipy2013/tutorial_detail.php?id=110) 
链接 到 相关 视频 展示 。 

使 用 Python 绘制 地 图 (http://sensitivecities.com/so-youd-like-to-make-a-map-using-python-EN.html) 
使 用 pandas、matplotlib、shapely 以 及 其 他 Python 模块 绘制 历史 性 地 标的 地 图 。 
Python Geospatial Development (http://shop.oreilly.com/product/9781782161523.do) 

Eric Westra 的 一 本 书 ， 介 绍 了 如 何 使 用 mapnik 以 及 其 他 工具 。 

Learning Geospatial Analysis with Python (http://shop.oreilly.com/product/9781783281138.do) 
Joel Lawhead 的 一 本 书 ， 回 顾 了 与 地 理 空间 相关 的 算法 、 格 式 以 及 库 
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看 提 到 的 模块 都 能 绘制 出 精美 的 地 图 ， 但 它们 的 安装 、 学 习 难 度 都 比较 大 。 有 些 模块 其 























至 依赖 于 你 没有 见 过 的 库 ， 例 如 numpy 和 pandas。 使 用 它们 带 来 的 收益 能 否 大 于 付出 ? 作 
为 开发 者 ， 我 们 总 是 不 得 不 在 掌握 的 信息 不 完整 的 情况 下 被 迫 做 出 取舍 。 如 果 你 对 于 绘制 
地 图 感 兴趣 ， 不 妨 下 载 其 中 的 一 些 库 看 看 能 做 出 点 什么 。 或 者 你 可 以 试 着 连接 到 某 些 远 程 
网 络 服务 的 API 以 免 去 安装 软件 的 烦恼 ;第 9 章 介 绍 了 如 何 连 接 到 网 络 服务 器 并 解析 服务 
器 做 出 的 JSON 响应 。 


B.6.3 应 用 和 数据 


目前 为 止 ， 我 们 已 经 讨论 了 许多 关于 绘制 地 图 的 内 容 ， 但 其 实 我 们 可 以 使 用 地 图 数据 做 更 
多 事情 而 不 是 仅仅 停留 在 绘图 。 地 理 编码 (Geocoding) 指 在 地 址 信息 和 地 理 坐 标 之 间 进 
行 转化 。 你 可 以 找到 许多 与 地 理 编码 相关 的 API (http:/www.programmableweb.com/apitag/ 
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geocoding) ， 详 见 ProgrammableWeb's comparison (http://www.programmableweb.com/news/7- 


free-geocoding-apis-google-bing-yahoo-and-mapquest/2012/06/21) 及 Python 库 ， 例 如 geopy 


(https://code.google.com/p/geopy/) 、pygeocoder (https://pypi.python.org/pypi/pygeocoder) 以 及 
googlemaps (http://py-googlemaps.sourceforge.net/) 。 如 果 你 注册 了 Google 或 其 他 平台 并 获得 
了 相应 的 API 密 钥 ， 你 还 可 以 获取 这 些 平 台 提供 的 一 些 其 他 服务 ， 例 如 两 位 置 间 详 细 步 又 
的 旅行 路 线 、 某 一 位 置 附近 搜索 ， 等 等 。 





7 


























下 面 是 一 些 可 用 的 地 图 数据 源 : 











。 http://www.census.gov/geo/maps-data/ 





美国 人 


口 统计 局 发 布 的 地 图 文件 总 览 


。 http://www.census.gov/geo/maps-data/data/tiger.html 
大 量 的 地 理 地 图 数据 以 及 人 口 地 图 数据 


。 http://wiki.openstreetmap.org/wiki/Potential_Datasources 


全 球 地 








图 资源 


。 http://www.naturalearthdata.com/ 





三 种 比 





列 尺 下 的 矢量 图 以 及 栅 格 地 图 数据 


我 们 还 应 该 在 这 里 讨论 一 下 相关 的 数据 科学 工具 (Data Science Toolkit，http://www:. 
datasciencetoolkit.org/) ， 包 括 免 费 的 双向 地 理 编码 工具 、 政 治 版 图 边界 的 坐标 信息 以 及 统 
计 信 息 ， 等 等 。 你 可 以 将 所 有 的 数据 和 软件 统一 下 载 到 虚拟 机 (VM) 中， 从 而 让 它们 独 
立 运行 在 你 的 电脑 里 不 受 其 他 软件 和 数据 的 影响 。 
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附录 C 
Python 的 科学 





在 她 统治 期 间 ， 
蒸汽 无 所 不 能 的 力量 被 用 于 海陆 之 间 ， 
这 些 都 强烈 地 依赖 于 
科学 上 的 突破 。 
一 一 1887 年 维多利亚 女王 执政 50 周年 纪念 颂歌 ， 麦 金泰 尔 ， 


最 近 几 年 ， 由 于 大 量 实 用 软件 包 的 出 现 (本 章 中 会 见 到 这 些 软件 包 )，Python 在 科学 研究 
者 中 愈加 流行 。 如 果 你 是 科学 工作 者 或 者 学 生 ， 可 能 用 过 像 MATLAB 或 者 R 这 样 的 工具 ， 
也 可 能 使 用 过 像 Java、C、C++ 这 样 的 传统 编程 语言 。 而 本 章 ， 你 将 会 见识 Python 为 了 科 
学 研究 和 出 版 而 搭建 的 完美 平台 。 


C.1 标准 库 中 的 数学 和 统计 
首先 重 温 一 下 标准 库 ， 看 看 那些 我 们 之 前 不 曾 提 到 过 的 模块 和 功能 。 
C.1.1 数学 函数 


Python 的 标准 math (https://docs.python.org/3/library/math.html) 库 中 汇集 了 大 量 的 数学 函 
数 。 通 过 import math 即 可 将 它们 引入 到 你 的 程序 中 进行 使 用 。 


math 库 会 引入 一 些 常 量 ， 例 如 pt 和 e: 























注 1: 和 詹姆斯. 麦 金 泰 尔 ， 加 拿 大 诗人 。 
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>>> import math 

>>> math .pi 

>>> 3.141592653589793 
>>> math .e 
2.718281828459045 


组 成 math 库 的 大 部 分 内 容 都 是 函数 ， 我 们 不 妨 先 来 看 一 些 最 常用 的 。 
fabs() 用 于 获得 绝对 值 : 


>>> math.fabs(98.6) 
98.6 

>>> math.fabs(-271.1) 
271.1 


你 还 可 以 获得 向 下 取 整 的 整数 (floor()) 和 向 上 取 整 的 整数 (ceil()) : 


>>> math.fLoor(98.6) 
98 

>>> math.fLoor(-271.1) 
-272 

>>> math.ceil(98.6) 

99 

>>> math.ceil(-271.1) 
-271 


使 用 factorial() 计算 阶乘 (在 数学 中 以 n! 表示 ) : 


>>> math.factorial(0) 
> math.factorial(1) 
se math.factorial(2) 
math.factorial(3) 
oe math.factorial(10) 
3628800 


使 用 tog() 计算 自然 对 数 (以 e 为 底 ) : 


>>> math.Log(1.0) 
0.0 

>>> math.Log(math.e) 
1.0 


如 果 你 想 使 用 别 的 数字 作为 log 的 底 ， 可 以 把 它 当 作 第 二 个 参数 传 入 函数 : 


>>> math.Log(8，2) 
3.0 


pow() 做 的 工作 与 上 面 正 好 相反 ， 它 用 于 计算 一 个 数 的 指数 : 


>>> math.pow(2，3) 
8.0 


Python 内 置 的 指数 运算 符 ** 也 可 以 进行 同样 的 计算 ， 只 不 过 当 底 数 和 指数 都 是 整数 时 ， 
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用 ** 计算 得 到 的 结果 也 是 整数 ， 不 会 被 自动 转化 为 浮 点 数 : 
>>> 2**3 
8 
>>> 2.0**3 


8.0 


使 用 sqrt() 得 到 平方 根 : 
>>> math.sqrt(100.0) 
10.0 
别 想 着 调戏 sqrt() 国 数 ， 你 的 小 把 戏 它 都 见 过 : 


>>> math.sqrt(-100.0) 

Traceback (most recent call Last) : 
File "<stdin>", line 1, in <module> 

ValueError: math domain error 


第 见 的 三 角 函 数 都 可 以 使 用 ， 这 里 我 只 列 出 它们 的 名 字 : sin()、cos()、tan()、asin()、 
acos()、atan()、atan2()。 如 果 你 还 记得 勾 股 定理 ，math 库 还 包含 hypot() 函数 帮 你 计算 
给 定 两 直角 边 对 应 的 斜 边 长 度 : 


>>> Xx = 3.0 














>>> y= 4.0 
>>> math.hypot(x, y) 
5.0 


如 果 你 不 放心 这 些 神奇 的 函数 ， 可 以 自己 验证 一 下 ， 看 看 它们 是 否 能 正常 工作 : 


>>> math.sqrt(x*x + y*y) 
5.0 

>>> math.sqrt(x**2 + y**2) 
5.0 


最 后 一 组 国 数 用 于 进行 角 坐 标 转换 : 


>>> math.radians(180.0) 
3.141592653589793 

>>> math.degrees(math.pi) 
180.0 


C.1.2 使 用 复数 


基本 Python 语言 ( 即 不 引入 任何 第 三 方 库 的 Python) 就 支持 复数 运算 。 所 谓 复 数 ， 就 是 
由 实 部 (real) 和 虚 部 (imaginary) 两 部 分 组 成 的 数 : 


>>> # 一 个 实数 


5 

5 

>>> # 一 个 虚数 
. 8j 





注 2: 函数 名 hypot 是 hypotenuse 的 缩写 ， 意思 是 斜 边 。 一 一 译 者 注 
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8j 


>>> # 一 个 虚数 
. 3+ 2j 
(3+2j) 


由 于 虚数 1 (在 Python 中 用 1 表示 ) 被 定义 为 -1 的 平方 根 ， 因 此 我 们 可 以 执行 下 列 
运算 : 

>>> 1j * 1 

(-1+0j) 

>>> (7 + 1j) * 1j 

(-1+7j) 


一 些 与 复数 计算 相关 的 函数 都 被 纳入 了 cmath (https://docs.python.org/3/library/cmath.html) 








C.1.3 ”使 用 小 数 对 浮 点 数 进行 精确 计算 


计算 机 中 的 淫 点 数 和 我 们 在 学 校 学 的 实数 有 些 差别 。 由 于 计算 机 的 CPU 是 针对 二 进 制 运 
算 设 计 的 ， 因 此 它 无 法 准确 表示 那些 不 是 2 的 寡 次 方 的 数 : 
>>> x = 10.0 / 3.0 


>>> X 


3.3333333333333335 


天 呐 ， 最 后 的 那个 5 是 怎么 回 事 ? 应 该 一 直 是 3 才 对 啊 。 使 用 Python 的 decimal (https:// 
docs.python.org/3/library/decimal.html) 模块 ， 你 可 以 把 数字 按 任意 你 所 需 的 精度 表示 。 这 
种 对 于 涉及 钱 的 计算 非常 重要 。 美 元 的 最 小 精度 是 1 美 分 (1 美元 的 百 分 之 一 )， 因 此 当 我 
们 需要 用 美元 和 美 分 计算 钱 的 数目 时 ， 我 们 期 望 最 终 的 结果 精确 到 美 分 。 如 果 我 们 使 用 像 
19.99 和 0.06 这 样 的 浮 点 数 来 表示 美元 和 美 分 的 话 ， 在 开始 实际 计算 前 ， 我 们 的 数据 精度 
就 会 有 所 损失 ( 浮 点 数 的 最 后 儿 位 数字 会 像 上 面 的 例子 一 样 产 生 误差 )。 那 么 如 何 解 决 这 
个 问题 呢 ? 很 简单 ， 使 用 decimal 模块 代替 即 可 : 

>>> from decimal import Decimal 

>>> price = Decimal('19.99') 

>>> tax = Decimal('0.06') 

>>> total = price + (price * tax) 


>>> total 
Decimal('21.1894') 


我 们 使 用 字符 串 值 初始 化 了 价格 (price) 和 税收 (tax) 变量 ， 以 此 隐 性 指明 数据 的 有 效 数 
字 。total 的 计算 过 程 保留 了 所 有 有 效 数字 ， 但 是 我 们 只 需要 精确 到 最 近 的 美 分 : 
>>> penny = Decimal('0.01') 


>>> total.quantize(penny) 
Decimal('21.19') 


上 例 中 ， 也 许 你 使 用 浮 点 数 和 取 整 运算 能 获得 一 样 的 结果 ， 但 这 并 不 总 能 成 功 。 你 也 可 以 
把 所 有 数 都 乘 以 100， 然 后 使 用 整数 进行 运算 ,但 小 心 ， 这 早晚 也 会 产生 问题 。 在 www. 
itmabyahack.com (http://www.itmaybeahack.com/homepage/books/nonprog/html/p13_modules/ 
p13_c03_decimal.html) 上 ， 有 许多 关于 上 述 计算 精度 损失 问题 的 讨论 。 
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C.1.4 使 用 分 数 进 行 有 理 数 运算 


你 可 以 使 用 标准 Python 中 的 fractions (https://docs.python.org/3/library/fractions.html) 模 
块 将 有 理 数 表示 为 分 子 除 以 分 母 的 形式 。 下 面 是 一 个 简单 的 例子 ， 计 算 三 分 之 一 乘 以 三 分 
过 二 

>>> from fractions import Fraction 


>>> Fraction(1, 3) * Fraction(2, 3) 
Fraction(2, 9) 


使 用 浮 点 数 作为 参数 会 造成 结果 不 准确 ， 你 可 以 在 Fraction 中 使 用 Decimal 作为 替代 
传 入 : 

>>> Fraction(1.0/3.0) 

Fraction(6004799503160661, 18014398509481984) 


>>> Fraction(Decimal('1.0')/Decimal('3.0')) 
Fraction(3333333333333333333333333333，10000000000000000000000000000) 


使 用 gcd 函数 可 以 获得 两 个 数 的 最 大 公约 数 : 


>>> import fractions 
>>> fractions.gcd(24, 16) 
8 


C.1.5 使 用 array 创 建 压缩 序列 


Python 中 的 列表 类 型 更 像 是 一 个 链表 而 不 是 数组 。 如 果 你 需要 一 个 元 素 类 型 全 都 相同 的 一 
维 序列 ， 可 以 使 用 数组 (array，https://docs.python.org/3/library/array.html) 类 型 。 与 列表 
相 比 ， 数 组 占用 空间 更 小 ， 却 支持 许多 列表 方法 。 使 用 array(typecode，initiaLizer) 可 
以 创建 一 个 新 的 数组 。 其 中 typecode 定义 了 数据 类 型 〈 例 如 int 或 float)， 男 一 个 可 选 的 
参数 initializer 包含 了 初始 化 的 值 ， 它 可 以 是 一 个 列表 、 字 符 串 或 者 其 他 可 迭代 类 型 。 


在 实际 工作 中 ， 我 从 未 使 用 过 这 个 包 。 数 组 是 一 个 相对 低层 次 的 数据 结构 ， 在 表示 图 像 数 
据 时 比较 有 用 。 如 果 你 使 用 数组 一 一 尤其 是 多 维 数组 一 一 仅 仅 是 为 了 进行 数值 计算 的 话 
(例如 和 矩阵 运算 )， 最 好 还 是 使 用 NumpPy 代替 ， 随 后 就 会 讲 到 这 个 包 。 


C.1.6 使 用 statistics 进 行 简单 数据 统计 

从 Python 3.4 开始 ，statistics (https://docs.python.org/3.4/library/statistics. a 被 纳入 
了 标准 模块 。 它 包含 许多 实用 函数 : 平均 值 、 中 数 、 求 模 、 标 准 差 、 方 差 ， 等 等 。 输 入 的 
数据 可 以 是 序列 型 的 〈 列 表 或 元 组 ) 也 可 以 是 不 同类 型 的 数值 (整数 、 浮 点 数 、 小 数 、 分 
数 ) 组 成 的 迄 代 型 。 其 中 ，mode 函数 还 可 以 接受 字符 串 类 型 的 输入 。SciPy 和 Pandas 包含 
更 多 的 统计 函数 ， 随 后 会 介绍 


C.1.7 和 矩阵 乘 ; 


据说 从 Python 3.5 开始 ，@ 字符 将 不 再 仅 限于 处 理 字符 时 使 用 了 。 它 仍然 还 会 具有 修饰 符 
的 作用 ， 但 同时 还 将 可 以 用 于 答 阵 乘法 (http://legacy.python.org/dev/peps/pep-0465/)。 但 在 
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它 真 正 到 来 之 前 ，NumPy 仍然 是 你 进行 矩阵 运算 的 最 佳 选 择 。 


C.2 科学 Python 


本 附录 剩 下 的 内 容 会 涵盖 一 些 与 科学 、 数 学 相关 的 第 三 方 Python 包 。 你 可 以 选择 分 开 安 装 
它们 ， 但 我 建议 通过 安装 某 个 科学 计算 版 本 的 Python 从 而 一 口气 把 它们 全 都 安装 了 。 下 面 
是 儿 种 主流 的 科学 版 Python。 
。 Anaconda (https://store.continuum.io/cshop/anaconda/) 
这 个 包 是 免费 的 、 可 扩展 的 、 不 断 更 新 的 科学 计算 版 Python。 它 同时 支持 Python 2 和 
Python 3， 而 且 不 会 对 你 系统 中 已 经 安装 的 Python 产生 任何 副作用 。 
。 Enthought Canopy (https:Wwww.enthought.com/products/canopy/) 
这 个 包 既 有 免费 版 本 也 有 商业 版 本 。 


。 Python(x;y) (https://code.google.com/p/pythonxy/) 

这 个 包 仅 可 在 Windows 下 使 用 。 
。 Pyzo (http://www.pyzo.org/) 

这 个 包 是 建立 在 Anaconda 的 一 些 工具 上 的 ， 同 时 添加 了 一 些 其 他 的 实用 工具 。 
。 ALGORETE Loopy (http://algorete.org/) 

这 也 是 一 个 建立 在 Anaconda 上 的 包 ， 同 样 添 加 了 一 些 其 他 内 容 。 
我 建议 安装 Anaconda。 虽 然 它 的 体积 比较 庞大 ， 但 包含 了 本 附录 中 会 使 用 到 的 所 有 工具 ， 
一 劳 永 逸 。 你 可 以 参考 附录 D， 学 习 如 何 安装 Python 3 版 本 的 Anaconda。 本 附录 的 后 半 部 
分 内 容 会 假定 你 已 经 安装 好 了 所 有 所 需 的 包 ， 不 管 你 是 分 开 安装 还 是 通过 Anaconda 安装 。 














C.3 Numpy 


NumPy (http:/www.numpy.org/) 是 Python 在 科学 工作 者 中 流行 起 来 的 主要 原因 之 一 。 你 
可 能 昕 到 过 类 似 这 样 的 说 法 : 像 Python 这 样 的 动态 语言 要 比 像 C 语言 一 样 的 编译 型 语言 
效率 低 ， 甚 至 比 像 Java 这 样 的 解释 型 语言 的 效率 也 要 低 。NumPy 是 为 了 进行 快速 多 维 算 
阵 运 算 而 设计 的 ， 和 FORTRAN 这 样 的 科学 性 语言 有 些 类 似 。 你 可 以 同时 获得 接近 C 语言 
的 运算 速度 和 Python 的 友好 〈 便 于 编写 使 用 ) 接口 。 

如 果 你 已 经 下 载 安装 了 Python 的 某 一 个 科学 计算 版 本 ， 应 该 已 经 拥有 NumPy 了 。 如 果 没 
有 的 话 可 以 前 往 NumPy 的 下 载 页 (http:/www.scipy.org/scipylib/download.html) 按 教程 下 
载 安装 。 

在 开始 使 用 NumPy 之 前 ， 你 需要 理解 它 的 核心 数据 结构 : 多 维 数组 ， 用 ndarray 
(N-dimensional array) 或 仅仅 array 表示 。 和 Python 的 列表 、 元 组 不 同 ， 多 维 数组 中 的 元 
素 必 须 是 同一 类 型 的 。NumPy 把 数组 的 维 数 称 为 它 的 秩 (rank)。 一 维 数组 就 像 是 一 行 数 
据 ， 二 维 数组 就 像 是 一 张 包含 行列 的 表格 ， 三 维 数组 就 像 是 一 个 魔方 。 每 一 维 的 长 度 不 要 
求 相 同 。 
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NumpPy 中 的 array 和 标准 Python 中 的 array 并 不 是 一 回 事 。 本 附录 的 后 面部 
分 ， 当 我 说 数组 时 ， 我 指 的 都 是 NumPy 里 面 的 数组 。 























为 什么 需要 数组 类 型 呢 ? 

。 科学 数据 总 是 包含 大 量 序列 数据 ， 

。 对 这 种 数据 进行 的 科学 计算 经 常 包 括 算 阵 数学 、 回 归 运 算 、 模 拟 以 及 其 他 需要 同时 对 许 
多 数据 点 进行 运算 的 操作 ， 

。 NumPy 对 数组 的 处 理 速度 要 远 远 超过 它 处 理 标准 Python 里 列表 或 元 组 的 速度 。 


NumPy 数组 有 多 种 创建 方式 。 


C.3.1 使 用 array() 创 建 数 组 
你 可 以 利用 普通 的 列表 或 元 组 生成 数组 ， 


>>> b = np.array( [2, 4, 6, 8] ) 
>>> b 


array([2，4，6，8]) 


ndin 属性 会 返回 数组 的 秩 : 


>>> b.ndim 
1 


数组 中 所 有 元 素 的 个 数 由 size 记录 : 


>>> b.size 
4 


每 一 秩 ( 维 ) 的 元 素数 量 由 shape 返回 : 


>>> b.shape 


(4,) 


C.3.2 ”使 用 arange() 创 建 数组 


NumPy 中 的 arrange() 与 Python 中 的 标准 range() 类 似 。 如 果 你 在 调用 arange() 时 只 传 
入 了 一 个 整形 参数 num， 它 会 返回 一 个 包含 了 从 9 到 num-1 的 整数 的 ndarray: 


>>> import numpy as np 

>>> a = np.arange(10) 

>>> a 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
>>> a.ndim 

1 

>>> a.shape 

(10,) 

>>> a.size 

10 
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如 有 果 传 人 两 个 参数 ， 则 arange( ) 方法 会 返回 从 第 一 个 参数 到 最 后 一 个 参数 减 一 的 全 部 整数 





的 数组 : 


>>> a = np.arange(7，11) 
>>> 9 


array([ 7, 8, 9, 10]) 


除 此 之 外 ， 你 还 可 以 把 自己 指定 的 步 长 (默认 是 1) 作为 第 三 个 参数 


>>> a = np.arange(7, 11, 2) 
>>> 9 


array([7，9]) 


目前 为 止 ， 我 们 的 例子 中 出 现 的 都 是 整数 ， 但 事实 上 ， 使 用 序 点 数 也 能 完美 运行 : 


>>> f = np.arange(2.0, 9.8, 0.3) 
>>> f 

array([ 2. ， 2.3，2. 
5.3， 5.6， 5. 
8.6 8.9 9. 


条 


6，2.9， 3.2 
9, 6.2, 6.5 
2 9393 .9738 


最 后 一 个 小 技巧 ，dtype 参数 可 以 指定 arange 产生 的 值 的 类 型 ， 
>>> g = np.arange(10, 4, -1.5, dtype=np.float) 
>>> g 


array([ 10. ， 8.5, 7. ， 5.5]) 


C.3.3 使 用 zeros()、ones() 和 random() 创 建 数 组 





zeros() 会 返回 一 个 全 都 是 0 的 矩阵 。zeros 接收 的 参数 是 元 组 ， 用 于 指定 你 想 要 创建 的 抵 





阵 的 形状 。 下 面 是 一 个 一 维 数组 的 例子 : 


>>> a = np.zeros((3,)) 
>>> 9 

array([ 0.，0.，0.]) 
>>> a.ndim 

1 

>>> a.shape 

(3,) 

LZ 

3 


下 面 创建 的 矩阵 的 秩 为 二 : 


>>> b = np.zeros((2, 4)) 

>>> b 

array([[ 0., 0., 0., 0.], 
[ 90., 0., 0., 0.]]) 

>>> b.ndim 

2 

>>> b.shape 

(2, 4) 

>>> b.size 

8 
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另 一 个 特殊 的 函数 ones()， 它 创建 的 矩阵 中 所 有 值 都 相等 ， 


>>> import numpy as np 
>>> k = np.ones((3, 5)) 


>>> kk 

array([[1.，1.，1.，1.，1.]， 
本 本 
| ee ee Ne iD 





最 后 一 个 初始 化 函数 可 以 创建 由 0.0 到 1.0 之 间 的 随机 数组 成 的 矩阵 : 


>>> m = np.random.random((3，5)) 
>>> Mm 
array([[ 1.92415699e-01， 4.43131404e-01， 7.99226773e-01， 
1.14301942e-01， 2.85383430e-04] ， 
[ 6.53705749e-01， 7.48034559e-01， 4.49463241e-01， 
4.87906915e-01， 9.34341118e-01] ， 
[ 9.47575562e-01， 2.21152583e-01， 2.49031209e-01， 
3.46190961e-01， 8.94842676e-01]]) 


C.3.4 使 用 reshape() 改 变 和 矩阵 的 形状 


目前 为 止 ， 你 可 能 还 是 觉得 数组 能 做 的 事情 和 列表 、 元 组 没有 什么 区 别 。 其 实 ， 数 组 能 做 
许多 列表 和 元 组 做 不 到 的 事情 ， 例 如 你 可 以 使 用 reshape() 函数 对 数组 的 形状 进行 修改 : 


>>> a = np.arange(10) 

>>> ad 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 

>>> a = a.reshape(2, 5) 

>>> ad 

array([[0, 1, 2, 3, 4], 
[5, 6, 7, 8, 9]]) 

>>> a.ndim 

2 

>>> a.shape 

(2, 5) 

>>> a.size 

10 


你 可 以 将 刚才 的 数组 转化 为 其 他 形状 : 


>>> a = a.reshape(5, 2) 

>>> a 

array([[0，1]， 
[2，3]， 
[4，5]， 
[6，7]， 
[8，9]]) 

>>> a.ndim 

2 

>>> a.shape 

(5, 2) 

>>> a.size 

10 








ke 
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将 表示 形状 的 元 组 赋值 给 shape 属性 也 可 以 达到 相同 的 效果 : 


>>> a.shape = (2, 5) 

>>> 9 

array([[0，1，2，3，4]， 
[5，6，7，8，9]]) 


形状 的 唯一 限制 是 秩 的 乘积 需要 等 于 数组 中 元 素 的 个 数 (上 例 中 是 10) : 


>>> a = a.reshape(3，4) 
Traceback (most recent call Last) : 
File "<stdin>", line 1, in <module> 
ValueError: total size of new array must be unchanged 


C.3.5 ”使 用 [] 访 问 元 素 
一 维 数 组 的 使 用 和 列表 类 似 : 


>>> a = np.arange(10) 
>>> a[7] 

7 

>>> a[-1] 

9 


然而 ， 如 果 数 组 的 形状 不 是 一 维 的 ， 就 需要 用 逗号 分 开 指 定 每 一 维 的 索引 了 : 


>>> a.shape = (2, 5) 

>>> 9 

array([[0，1，2，3，4]， 
[5，6，7，8，9]]) 

>>> a[1,2] 

7 


这 和 二 维 的 Python 列表 的 访问 方法 有 所 不 同 : 


>>> L = [ [0, 1, 2, 3, 4], [5, 6, 7, 8, 9] ] 
>>> 1 
[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]] 
>>> 1[1,2] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: list indices must be integers, not tuple 
>>> 1[1][2] 
7 











还 有 一 件 事情 。 分 片 操作 仍然 可 用 
建 我 们 熟悉 的 测试 数组 : 


只 不 过 你 需要 将 它们 全 都 放 到 一 组 方 括号 中 。 再 次 创 


>>> a = np.arange(10) 
>>> a = a.reshape(2, 5) 
>>> 9 


array([[0， 1, 2， 3 4]， 
[5， 6， 7， 8， 9]]) 


使 用 分 片 操作 访问 第 一 行 中 从 偏 移 量 为 2 的 元 素 开始 的 所 有 元 素 : 
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>>> a[0, 2:] 
array([2, 3, 4]) 


接 下 来 试 着 获取 最 后 一 行 的 倒数 三 个 元 素 : 


>>> a[-1，:3] 
array([5, 6, 7]) 


你 还 可 以 使 用 分 片 同时 给 多 个 元 素 赋值 。 例 如 下 面 的 语句 将 每 一 行 的 第 2 列 和 第 3 列 ( 偏 
移 位 置 ) 元 素 赋值 为 1066: 


>>> a[:, 2:4] = 1000 

>>> ad 

array([[ 0， 1, 1000, 1000,， 4]， 
[ 5， 6, 1000, 1000, 9]]) 


C.3.6 ”数组 运算 


创建 数组 和 数组 变形 太 有 趣 了 ， 以 至 于 我 们 差点 忘 了 介绍 如 何 对 数组 中 的 数据 进行 处 理 。 
下 面 要 介绍 的 第 一 个 技巧 是 使 用 NumPy 中 重 定义 的 乘法 运算 符 (*) 对 NumPy 数组 中 的 
所 有 元 素 进行 批量 乘法 : 


>>> from numpy import * 
>>> a = arange(4) 

>>> ad 

array([0, 1, 2, 3]) 


>>> a *= 3 


























>>> a 


array([0, 3, 6, 9]) 


如 果 你 想 要 对 一 个 普通 Python 列表 中 所 有 元 素 进 行 乘法 操作 ， 需 要 使 用 循环 或 者 列表 
迭代 : 

>>> plain list = list(range(4)) 

>>> plain_list 

[9, 1, 2, 3] 

>>> plain_list = [num * 3 for num in plain_list] 

>>> plain_list 

[9, 3, 6, 9] 


这 种 批量 操作 同样 适用 于 加 法 、 减 法 、 除 法 以 及 其 他 一 些 NumPy 库 中 的 函数 。 例 如 ， 通 
过 组 合 使 用 zeros() 和 +， 你 可 以 将 新 创建 的 数组 中 所 有 元 素 初 始 化 为 某 一 个 相同 的 值 : 
>>> from numpy import * 
>>> a = zeros((2, 5)) + 17.0 
arrayC i 17 7 TT A ET 
[7:3 73, SLs The “170]]) 


C.3.7 ”线性 代数 
NumPy 包含 许多 与 线性 代数 有 关 的 函数 ， 比 如 我 们 定义 下 面 这 组 线性 方程 
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20 
13 


4x + 5y 
X + 2y 


如 何 对 x 和 y 进行 求解 ?首先 需要 创建 两 个 矩阵 : 


。 系数 矩阵 (coefficient，x 和 y 的 系数 组 成 的 矩阵 ) 
。 因 变 量 矩 阵 (等 式 右 侧 ) 


>>> import numpy as np 
>>> coefficients = np.array([ [4, 5], [1, 2] ]) 
>>> dependents = np.array( [20，13] ) 


现在 使 用 Linatg 模块 中 的 soLve() 函数 : 


>>> answers = np.linalg.solve(coefficients, dependents) 
>>> anSswers 
array([ -8.33333333, 10.66666667]) 


运行 结果 显示 x 的 值 大 约 是 -8.3，y 的 值 大 约 是 10.6。 这 个 解 正确 吗 ? 


>>> 4 * answers[0] + 5 * answers[1] 
20.0 
>>> 1 * answers[0] + 2 * answers[1] 
13.0 


觉得 有 些 繁 琐 ? 那 看 看 下 面 的 做 法 如 何 。 直 接 让 NumPy 为 我 们 计算 两 个 矩阵 的 点 积 (dot 
product)， 以 省 去 一 些 敲打 键盘 的 时 间 : 
>>> product = np.dot(coefficients, answers) 


>>> product 
array([ 20., 13.]) 


如 果 得 到 的 解 是 正确 的 ， 那 么 product 数组 中 的 值 应 该 与 dependents 中 的 值 相近 。 你 可 以 
使 用 attctose() 函数 来 检查 两 个 数组 是 否 近似 相等 (点 积 得 到 的 结果 可 能 与 因 变量 矩阵 不 
完全 相同 ， 因 为 存在 浮 点 小 数 的 取 整 问题 ) : 


>>> np.allclose(product, dependents) 
True 


NumPy 还 提供 了 与 多 项 式 、 傅 立 叶 变换 、 统 计 以 及 一 些 概率 分 布 相关 的 模块 。 


C.4 SciPy 库 


SciPy (http://www.scipy.org/) 是 一 个 建立 在 NumPy 的 基础 之 上 的 库 ， 它 包含 了 更 多 的 
数学 函数 和 统计 函数 。SciPy 发 布 包 (http://www.scipy.org/scipylib/download.html) 包括 
NumPy、SciPy、Pandas (本 附录 后 面 会 讲 到 ) 以 及 一 些 其 他 的 库 。 


Scipy 包含 许多 模块 ， 可 以 完成 下 面 这 些 计算 任务 ， 
， 优化 
统计 
括 值 
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。 线性 回归 
。 积 2 
。 图 像 处 理 
。 信号 处 理 


如 果 你 曾经 使 用 过 其 他 的 科学 计算 工具 ， 就 会 发 现 Python、NumPy、SciPy 可 以 涵盖 商 
业 的 MATLAB (http://cn.mathworks.com/products/matlab/) 以 及 开源 的 R (http://www. 
r-project.org/) 中 的 大 部 分 功能 。 


C.5 SciKit 库 


同样 遵循 根据 已 有 的 软件 包 进 行 扩展 的 模式 ，SciKit (https://scikits.appspot.com/scikits) 
是 一 组 建立 在 SciPy 基础 上 的 科学 计算 软件 包 。SciKit 的 特长 在 于 机 器 学 习 (machine 
learning)。 它 支持 建 模 、 分 类 、 聚 类 以 及 多 种 机 器 学 习 算 法 。 


C.6 IPython 库 

IPython (http://ipython.org/) 的 诸多 优点 让 它 非常 值得 我 们 花 时 间 学 习 ， 下 面 列 出 了 其 中 
几 点 : 
。 改进 的 交互 式 解 释 器 (简单 来 说 ， 就 是 本 书 中 一 直 使 用 的 >>> 的 扩展 ) ; 

。 在 基于 网 页 的 笔记 本 (notebook) 中 发 布 代码 、 图 形 、 文 本 以 及 其 他 形式 的 文件 ， 

。 支持 并 行 化 计算 (parallel computing，http://ipython.org/ipython-doc/stable/parallel/parallel 














































































































_intro.html) 。 


我 们 主要 来 看 看 解释 器 和 笔记 本 部 分 。 


C.6.1 更 好 的 解释 器 


IPython 有 分 别针 对 Python 2 和 Python 3 的 两 个 不 同 的 版 本 ， 在 安装 Anaconda 或 其 他 科学 
计算 版 Python 时 会 自动 安装 。 使 用 ipython3 运行 与 Python 3 对 应 的 版 本 。 


$ ipython3 











Python 3.3.3 (v3.3.3:c3896275cQOf6, Nov 16 2013, 23:39:35) 
Type "copyright", "credits" or "license" for more information. 


IPython 0.13.1 -- An enhanced Interactive Python. 
? -> Introduction and overview of IPython's features . 
%quickref -> Quick reference. 


help -> Python's own help systenm. 
object? -> Details about 'object', use 'object??' for extra details. 
In [1]: 


标准 Python 解释 器 使 用 >>> 和 .… 作为 输入 提示 符 ， 其 中 ，.… 表示 你 仍 需要 输入 一 些 代 
码 以 保证 正常 运行 。IPython 会 将 你 输入 的 所 有 东西 保存 在 名 为 In 的 列表 中 ， 同 时 将 所 有 
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输入 的 内 容 保存 到 0ut 列表 中 。 每 个 输入 可 以 包含 多 行 数据 ， 通 过 按 下 Shift 加 回 车 可 以 结 
束 输入 并 提交 你 输入 的 内 容 。 下 面 是 一 个 一 行 的 例子 : 


In [1]: print("Hello? World?") 
Hello? World? 


In [2]: 
In 和 out 是 自动 编号 的 列表 ， 这 让 你 可 以 方便 地 访问 任何 你 输入 的 内 容 和 得 到 的 输出 
内 容 。 
如 果 你 在 一 个 变量 后 边 输 入 ?，IPython 会 显示 出 它 的 类 型 、 值 、 创 建 该 类 变量 的 方式 以 及 
其 他 一 些 相关 信息 : 


In [4]: answer = 42 








In [5]: answer? 


Type : int 
String Form:42 
Docstring: 


int(x=0) -> integer 
int(x, base=10) -> integer 


Convert a number or string to an integer, or return 0 if no arguments 
are given. If x is a Nnumber, return x._int_ (). For floating point 
numbers, this truncates towards zero. 


If x is not a number or if base is given, then x must be a string, 

bytes, or bytearray instance representing an integer literal in the 
given base. The literal can be preceded by '+' or '-' and be surrounded 
by whitespace. The base defaults to 10. Valid bases are 0 and 2-36. 
Base 0 means to interpret the base from the string as an integer literal. 
>>> int('0b100', base=0) 

4 


名 称 查找 是 像 Python 这 样 的 IDE 中 常见 的 功能 。 如 果 你 在 输入 了 一 串 字 符 后 按 下 Tab 键 ， 
IPython 会 显示 出 所 有 以 当前 字符 串 为 开头 的 变量 、 关 键 词 、 函 数 ， 等 等 。 我 们 首先 来 定 
义 一 些 变 量 ， 然 后 尝试 查找 所 有 以 f 开头 的 内 容 : 


In [6]: fee 

















1 


In [7]: fie = 2 


In [8]: fo = 3 
In [9]: fum = 4 
In [10]: ftab 


%%file fie finally fo format frozenset 
fee filter float for from fum 


如 有 果 你 在 输入 fe 后 按 下 Tab 键 ， 它 会 自动 扩展 为 变量 fee， 因 为 它 是 当前 程序 中 唯一 一 个 
以 fe 开头 的 内 容 : 
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In [11]: fee 
Out[11]: 1 


C.6.2 1IPython 笔 记 本 


如 果 你 倾向 于 图 形 界面 ， 可 能 会 喜欢 IPython 的 基于 网 页 的 实现 。 首 先 打 开 Anaconda 的 开 
始 窗 口 ( 久 C-1 ) o 
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IPython Notebook [i 
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Documentation 











图 C-1，Anaconda 开始 界面 





点 击 ipython-notebook 右 侧 的 launch 图 标 即 可 在 浏览 器 中 运行 笔记 本 。 
启动 页 。 





加 





C-2 显示 了 初始 








IPI[y]: Notebook 


Notebooks Clusters 


To import a notebook, drag the file onto the listing below or click here. Refresh New Notebook 


/ Users / williamlubanovic / 


Untitled0 Shutdown 











C-2: iPython 主 界面 





现在 点 击 创建 新 笔记 本 会 弹出 一 个 类 似 图 C-3 的 窗口 。 
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IP[y: Notebook Untitled0 eucsaved 


Pile Edit View Insert Cell Kernel Help 


四 关 掏 取 个 Y906 PP 国 Code $ | Cell Toolbar | None 


In [ ]: 








C-3: iPython 笔记 本 页 面 


在 图 形 界面 下 重新 输入 我 们 之 前 例子 中 的 代码 ， 如 图 C-4 所 示 。 























I Pp [y]: N O 臣 e b O O K Untitled1 (unsaved changes) 


File Edit View Insert Cell Kernel Help 


四 抽取 个 YY90 Pp 图 Code 4 | Cell Toolbar | None 


In [ ]: print("Hello? World?" 











C-4: 在 iPython 中 输入 代码 








点 击 黑 色 的 小 三 角 运 行 它 。 运 行 结果 如 图 C-5 所 示 。 








I P [y]: N O 证 e b OO K Untitled1 (unsaved changes) 


File Edit View Insert Cell Kernel Help 
3 多 有 人 人 ve Pp 图 code $ | Cell Toolbar None 
In [2]: print("Hello? World?" 
Hello? World? 


nts 











C-5: 在 iPython 中 运行 代码 
IPython 的 笔记 本 不 仅仅 是 图 形 化 版 的 IPython 解释 器 。 除 了 代码 ， 它 还 可 以 包含 文本 、 
片 、 格 式 化 的 数学 表达 式 ， 等 等 。 


在 笔记 本 界面 上 方 的 一 排 按钮 中 有 一 个 是 下 拉 菜 单 (图 C-6) ， 它 可 以 指定 你 输入 内 容 的 方 
式 。 下 面 是 几 种 可 选 的 方式 。 























。 Code 

默认 的 输入 方式 ， 用 于 输入 Python 代码 。 
。 Markdown 

HTML 的 一 种 替代 ， 可 以 将 输入 文本 按照 预先 指定 的 格式 处 理 为 可 读 文 本 。 
。 纯 文 本 


无 格式 文本 ， 从 Heading 1 到 Heading 6， 即 对 应 HTML 中 的 <H1> 到 <H6> 标签 。 
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IP[y]}: Notebook Untitled2 euosaved) 


File Edit View Insert Cell Kernel Help 


2 的 了 个 业 OO OO > FRACS Cell Toolbar None 
Markdown | 


Raw Text 
in [ ]: Heading 1 
Heading 2 
Heading 3 
Heading 4 
Heading 5 
Heading 6 











C-6: 可 选 内 容 格式 菜单 

试 着 在 我 们 的 代码 中 穿 播 加 入 些 文本 ， 让 它 看 起 来 像 是 某 种 wiki 页 。 从 下 拉 菜 单 中 选择 
Heading 1 然后 输入 “Humble Brag Example”， 接 着 按 下 Shift 加 回 车 键 (Enter) 。 你 应 该 能 
看 到 粗 体 显示 的 上 面 三 个 单词 。 然 后 从 下 拉 菜 单 中 选择 Code 并 随便 输入 一 些 代 码 ， 比 如 
下 面 这 些 : 


print("Some people say this code is ingenious") 


再 次 按 下 Shift+Enter 来 完成 输入 。 现 在 你 应 该 能 看 到 格式 化 的 标题 和 代码 ， 如 图 C-7 所 示 。 


























下 P [y] % N O 七 e b OO K Untitled2 (unsaved changes) 


File Edit View Insert Cell Kernel Help 


3 相克 个 OO Pp 图 Code $ | Cell Toolbar None 


Humble Brag Example 


In [2]: print("Some people say this code is ingenious" 


Some people say this code is ingenious 


In [ ]: 








C-7: 格式 化 文本 和 代码 


通过 将 输入 代码 、 输 出 结果 、 文 本 甚至 图 片 穿 揪 起来， 你 可 以 创建 交互 式 的 笔记 本 。 又 由 
于 它 是 基于 网 页 的 ， 因 此 你 可 以 从 任何 浏览 器 上 访问 到 ， 十 分 便捷 。 

你 可 以 看 到 一 些 转 化 成 静态 HTML (http://nbviewer.ipython.org/) 的 笔记 ， 或 者 放置 在 收藏 
(https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks) 中 的 笔 
记 。 举 个 具体 的 例子 ， 你 可 以 看 看 关于 泰坦 尼克 号 上 乘客 的 笔记 (http://nbviewer.ipython. 
org/github/agconti/kaggle-titanic/blob/master/Titanic.ipynb)。 它 包括 一 些 图 表 ， 展 示 了 性 别 、 
穷 富 、 位 于 船上 的 位 置 等 因素 是 如 何 影响 生存 率 的 。 作 为 奖励 ， 你 还 可 以 读 一 读 如 何 使 用 
不 同 的 机 器 学 习 方 法 。 


科学 家 们 也 开始 使 用 卫 ython 笔记 来 发 表 他 们 的 研究 成 果 ， 包 括 所 有 代码 和 支持 结论 的 数据 。 
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C.7 Pandas 


最 近 几 年 ， 数 据 科 学 (data science) 这 个 词 变 得 越 来 越 流 行 。 关 于 这 个 词 ， 我 看 到 过 这 样 
一 些 解释 :“ 在 Mac 上 完成 的 统计 ”或 “在 旧金山 完成 的 统计 ”。 然 而 ， 不 管 你 如 何 定义 数 
据 科学 的 范畴 ， 本 章 我 们 讨论 的 工具 一 一 NumPy、SciPy 以 及 这 一 节 的 主角 Pandas 一 一 都 
是 日 益 流 行 的 数据 科学 工具 中 的 重要 成 员 。( 当 然 Mac 和 旧金山 都 是 可 有 可 无 的 。) 


Pandas (http://pandas.pydata.org/) 是 一 款 全 新 的 用 于 进行 交互 式 数据 分 析 的 工具 包 。 
Pandas 融合 了 NumPy 进行 矩阵 运算 的 能 力 以 及 处 理 电 子 表格 和 关系 型 数据 库 的 能 力 ， 因 
此 它 在 处 理 真实 世界 的 数据 上 非常 有 效 。Wes McKinney 编写 的 Python for Data Analysis: 
Data Wrangling with Pandas, NumPy, and IPython (O’Reilly, http://shop.oreilly.com/ 
product/0636920023784.do) 讲解 了 如 何 使 用 NumPy、IPython 以 及 Pandas 进行 有 效 的 数据 
处 理 。 
NumPy 是 针对 传统 科学 计算 而 设计 的 ， 它 主要 用 于 处 理 单 一 类 型 的 多 维 数据 集 ， 通 常 为 浮 
点 型 数据 。Pandas 更 像 是 一 个 数据 库 编 辑 器 ， 可 以 处 理 包含 多 种 数据 类 型 的 组 (group)。 
在 某 些 语言 中 ， 这 种 组 也 被 称 为 记录 (record) 或 者 结构 (structure)。Pandas 定义 一 种 基 
本 数据 结构 ， 叫 作 DataFrame (数据 帧 )。 它 是 一 个 有 序 的 列 的 集合 ， 每 一 列 都 有 自己 的 名 
称 和 类 型 。 数 据 帧 有 点 像 数据 库 中 的 表格 、Python 中 的 命名 元 组 和 各 套 字典 。Pandas 的 设 
计 目 的 在 于 简化 不 同类 型 数据 的 处 理 过 程 ， 使 它 不 仅仅 适用 于 科学 计算 中 遇 到 的 类 型 ( 主 
要 是 浮 点 型 ) 还 适用 于 商业 数据 。 事 实 上 ，Pandas 最 初 就 是 为 了 处 理 金融 数据 而 设计 的 ， 
它 最 常见 的 替代 品 就 是 电子 表格 。 

Pandas 是 一 款 用 于 处 理 真实 世界 中 各 种 类 型 的 混杂 数据 〈 值 的 缺失 、 古 怪 的 格式 、 稀 下 
的 测量 值 ， 等 等 ) 的 ETL 工具。 你 可 以 用 它 对 数据 文件 进行 划分 (split)、 合 并 (join)、 
扩展 (extend)、 添 加 (fl in)、 转 换 (convert)、 变 形 (reshape)、 切 分 (slice)、 加 载 
(load) 和 保存 (save) 等 操作 。 它 整合 了 我 们 之 前 讨论 过 的 那些 工具 一 一 NumPy、SciPy、 
IPython 一 一 用 于 进行 统计 计算 、 根 据 模型 拟 合 数据 、 绘 制图 表 、 发 表 ， 等 等 。 


大 多 数 科 学 家 们 都 希望 能 尽快 把 他 们 的 工作 做 完 ， 而 不 需要 花费 几 个 月 的 时 间 先 成 为 某 种 
临 滁 的 计算 机 语言 或 应 用 程序 的 专家 。 有 了 Python， 他 们 很 快 就 能 变 得 非常 有 效率 。 


C.8 Python 和 科学 领域 


之 前 我 们 讨论 的 都 是 可 以 应 用 到 任何 科学 领域 的 Python 工具 。 那 么 ， 有 没有 专门 针对 于 某 
一 特定 领域 的 Python 工具 和 相关 文档 呢 ? 下 面 列 出 了 Python 在 某 些 特定 问题 方向 的 应 用 ， 
以 及 一 些 适 用 于 特定 问题 的 Python 库 。 




















































































































。 通用 
4 在 科学 和 工程 中 使 用 Python 进行 计算 (http://kitchingroup.cheme.cmu.edu/pycse/pycse. 
html) 


* 科学 家 的 Python 速成 课 (http://nbviewer.ipython.org/gist/rpmuller/5920182) 
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。 物理 

4 计算 物理 学 (http://www-personal.umich.edu/~mejn/computational-physics/) 
。 生物 和 医药 

4 生物 学 家 应 学 的 Python (http://pythonforbiologists.com/) 

4 使 用 Python 处 理 神 经 影像 (http://nipy.org/) 
下 面 列 出 一 些 与 Python 和 科学 数据 处 理 相关 的 国际 会 议 : 


。 PyData (http://pydata.org/) 
。 SciPy (http://conference.scipy.org/) 



































。 EuroSciPy (https:Wwww.euroscipy.org/) 
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附录 D 
安装 Python 3 








等 到 Python 3 被 预 装 到 每 一 台 计 算 机 上 时 ,估计 烤 面 包机 都 已 经 被 可 以 打印 酥 粒 甜 甜 圈 的 

3D 打印 机 取代 了 。Windows 压根 没有 Python，OS X、Linux、Unix 也 都 只 是 预 装 了 旧版 

本 的 Python 而 已 。 在 它们 赶 上 Python 最 新 版 本 前 ， 我 们 只 能 自己 手动 安装 Python 3。 

下 面 几 节 详细 描述 了 如 何 做 到 以 下 几 件 事情 : 

。 查询 你 电脑 中 安装 的 Python 版 本 (如 果 安 装 了 ) 

。 安装 标准 发 布 版 的 Python 3 (如 果 没 有 安装 ) 

。 安装 Anaconda 发 布 的 Python 科学 计算 模块 

。 如 果 无 法 直接 修改 你 的 系统 (权限 问题 等 )， 不 妨 安 装 ptp 和 virtualenv 进行 第 三 方 包 
的 管理 

。 安装 conda 作为 pip 的 替代 品 

本 书 中 大 部 分 例子 都 是 在 Python 3.3 的 环境 下 编写 并 测试 的 ， 这 是 写本 书 时 最 新 的 稳定 版 

本 。 有 些 是 在 3.4 下 编写 并 测试 的 ， 这 个 版 本 是 在 校对 本 书 时 发 布 的 。 新 版 本 Python 的 变 

化 网 页 (https://docs.python.org/3/whatsnew/) 里 描述 了 每 一 个 新 版 本 更 新 的 内 容 。Python 

安装 包 有 多 种 来 产 ， 安 装 新 版 本 的 方式 也 不 止 一 种 。 本 附录 会 介绍 其 中 两 种 安装 方式 。 

。 如 果 你 只 会 用 标准 解释 器 和 库 , 建 议 从 官方 语言 网 站 (https://www.python.org/) 下 载 安装 。 

。 如 果 你 除了 使 用 Python 的 标准 库 外 还 需要 使 用 一 些 附 录 C 中 描述 的 强大 的 科学 计算 库 ， 
就 下 载 安装 Anaconda 吧 。 


D.1 安装 标准 Python 


打开 浏览 器 前 往 Python 下 载 页 (https:/www.python.org/downloads/)。 该 网 页 会 尝试 获取 你 




















ha 
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的 操作 系统 类 型 并 显示 对 应 的 Python 版 本 。 如 果 它 显示 的 不 对 ， 你 可 以 手动 从 下 面 几 个 链 
接 中 选择 对 应 的 版 本 下 载 : 
。 Python Releases for Windows (https:/www.python.org/downloads/windows/) 


。 Python Releases for Mac OS X (https:Wwww.python.org/downloads/mac-osx/) 
。 Python Source Releases (Linux and Unix，https:Wwww.python.org/downloads/source/) 


你 会 看 到 类 似 图 D-1 的 网 页 。 





























Boe/ 太 YY 局 (等 (ww (0\ a Vv 柄 oOReilly Atas x \ Js3.amazonaws.con x \ [HjBreaking Newsand x ) MOurDownloads|P, x 区 
€ 3 G | https://www.python.org/downloads/ 0 a = 


Python 


@ puUthon 


About Downloads Documentation Community Success Stories News Events 


Download the latest version for Mac OS X IAN \ 


Download Python 3.4.1 | Download Python2.7.6 


or Python with a differei 





Looking for a specific release? 


Python releases by version number 


Release version Release date Click for more 
Python 3.4.1 May 19, 2014 各 Download Release Notes 
Python 3.4.0 March 17, 2014 到 Download Release Notes 
Python 3.3.5 March 9, 2014 坦 Download Release Notes 
Python 3.3.4 Feb. 9, 2014 二 Download Release Notes 
Python 3.3.3 Nov 17,2013 志 Download Release Notes 
Python 2.7.6 Nov. 10, 2013 品 Download Release Notes 
Python 2.6.9 Oct. 29, 2013 二 Download Release Notes 


View older releases 

















D-1; 下 载 页 实例 


点 击 最 新 版 本 的 下 载 链接 。 在 编写 本 书 时 是 3.4.1。 点 击 后 会 跳 转 到 详细 信息 页 ， 如 医 
所 示 。 








讨 
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友人 加 等 


本 ano-atlasz.heroku: x 


CG https://www.python.org/download/releases/3.4.1 


Python 


@ python 


Downloads 





Tweets WFollow 
BB Prhon Software 7 May 
@ThePSF 


PSF Sponsors SciPy 2014 
goo gyfb/X1vRK 
Expand 


Python Software 7 May 
@ThePSF 

‘We're happy to be sponsoring 

@SciPyConfin Austin, TXI 

pyfound .blogspotcomy2014/05/psf-sp 

Expand 


Python Software 13 Apr 
@ThePSF 

Congratulations to @raymondh, recipient 

of the PSF's Distinguished Service 

Award at #pycon2014 

Expand 


Brian Curtin 12 Apr 
@brian_curtin 
$11,679 raised at the #pyladies auction 


after @ThePSF pitched in an extra 
$1,500. This is awesome. 


1 Retweeted by Python Software 

Expand 

(Yihon Software 10 Apr 
@ThePSF 

PSF Python Brochure now available! Get 


Tweet to @ThePSF 


The PSF 


The Python Software Foundation 





is the organization behind 


Documentation Community S News Events 


Python 3.4.1 


Python 3.4.1 


Python 3.4.1 was released on May 18th, 2014. 


Python 3.4.1 has over three hundred bugfixes and otherimprovements over 3.4.0. One notable 
change: the version of OpenSSL bundled with the Windows installer no longer has the 


"HeartBleed" vulnerability. 


Major new features of the 3.4 series, compared to 3.3 


Python 3.4 includes a range of improvements of the 3.x series, including hundreds of small 
improvements and bug fixes. Among the new major new features and changes in the 3.4 release 


series are 


。 PEP 428, a "pathlib" module providing object-oriented filesystem paths 





。 PEP 435, a standardized "enum" module 


。 PEP 436, a build enhancement that will help generate introspection information for buittins 


。 PEP 442,improved semantics forobjectfinalization 


ma PEP 





, adding single-dispatch generic functions to the standard library 

。 PEP 445,a newCAPIforimplementing custom memory allocators 

。 PEP 446, changing file descriptors to not be inherited by default in subprocesses 
» PEP 450, a new "statistics" module 


。 PEP 451, standardizing module metadata for Python's module import system 





。 PEP 453, a bundled installer for the pip package manager 


Ns3.amazonaws.corr x ， 回 Breaking Newsand x 0M python 3.4.1 |Pyt 

















图 D-2: 


下 载 详情 页 





你 需要 向 下 滚动 才能 找到 实际 下 载 链接 (如 图 D-3 所 示 )。 
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3 © | https://www.python.org/download/releases/3.4.1 














More resources 


Change log for this release. 

Online Documentation 

What's new in 3.4? 

3.4 Release Schedule 

Report bugs at http://bugs.python.org. 


Help fund Python and its community. 


Download 


Please proceed to the download page for the download. 
Notes on this release: 


The binaries for AMD64 will also work on processors that implement the Intel 64 architecture. 
(Also known as the "x64" architecture, and formerly known as both "EM64T" and "x86-64".) 
They will not work on Intel Itanium Processors (formerly "IA-64"). 


There is important information about IDLE, Tkinter, and Tcl/Tk on Mac OS X here. 


About Downloads Documentation Community Success Stories News 
Applications All releases Docs Diversity Arts Python News 
Quotes Source code Audio/Visual Talks IRC Business PSF News 
Getting Started Windows Beginners Guide Mailing Lists Education Community News 
Mac OSX Developer's Guide Python Conferences Engineering PyCon News 
Other Platforms FAQ Special Interest Groups Government 
License Non-English Docs Python Wiki Scientific Events 


Alternative PEP Index Python Logo Software Development Python Events 
Implementations 





Python Books Merchandise User Group Events 


Community Awards Python Events Archive 


User Group Events Archive 














图 D-3， 下 载 链接 页 的 底部 
点 击 下 载 链接 可 以 跳 转 到 实际 发 布 版 本 页 (如 图 D-4 所 示 )。 
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去， 了 四， 稍 和 回 a | 而 ano-atlas2.herokus x ， KU s3.amazonaws.cor x ' [EH]Breaking Newsand x | (Mpython Release Pydi x 


€ 3 C Bhttps://www.python.org/downloads/release/python-341/ Qs= 


Python 


@ python ~ EE 


About Downloads Documentation Community Success Stories News Events 





Python 3.4.1 


Release Date: May 19, 2014 
Release Notes 


Detailed Release Information 








Files 
Version Operating Description Date MD5 Sum File Size GPG 
System 

Mac OS X 64-bit/32-bit installer Mac OSX for Mac OS X 10.6 and later 316a2f83edff73bbbcb2c84390bee2db 22776248 SIG 

Mac OS X 32-bit i386/PPC installer Mac OSX for Mac OSX 10.5 and later 534f8ec2f5ad5539f9165b3125b5e959 22692757 SIG 

XZ compressed source tarball Source release 6cafc183b4106476dd73d5738d7f616a 14125788 SIG 

Gzipped source tarball Source release 26695450087f8587b26d0b6a63844af5 19113124 SIG 
ug information files Windows 9ce29e8356cf13f88e41f7595c2d7399 36744364 SIG 

Windows x86 MSl installer Windows 4940c3fad01ffa2ca7f9cc43a005b89a 24408064 SIG 

Windows debug information files for 64- ”Windows 44a2d4d3c62a147f5a9f733b030490d1 24129218 SIG 

bit binaries 

Windows help file Windows 6ff47ff938b15d2900f3c7311ab629e5 7297786 SIG 

Windows x86-64 MSl installer Windows for AMD64/EM64T/x64, not Itanium 25440653f27ee1597fd6b3el5eee155f ”25104384 SIG 














图 D-4: 可 以 下 载 的 文件 
现在 点 击 对 应 版 本 的 链接 即 可 将 Python 下 载 到 你 的 电脑 了 。 





D.1.1 Mac OS X 


点 击 Mac OS X 64-bit/32-bit installer (https:Wwww.python.org/ftp/python/3.4.1/python-3.4.1- 
macosx10.6.dmg) 链接 下 载 Mac 中 使 用 的 .dmg 文件 。 下 载 完 成 后 双击 它 ， 桌 面 上 会 弹出 
一 个 包含 4 个 图 标的 窗口 。 右 键 单 击 Python.mpkg， 在 弹出 的 对 话 框 中 点 击 “打开 ”。 点 
击 大 约 三 次 “继续 ”按钮 ， 期 间 会 显示 一 些 法 律 声明 ， 最 后 的 对 话 框 出 现 后 点 击 “安装 "。 
Python 3 的 所 有 内 容 都 会 被 安装 到 /usr/local/bin/python3， 不 会 对 电脑 上 已 安装 的 Python 2 
产生 任何 影响 。 


























D.1.2 Windows 
对 于 Windows， 根 据 自 己 计算 机 的 具体 环境 选择 下 面 两 个 安装 包 之 一 : 
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。 Windows x86 MSI installer (32 位 ，https://www.python.org/ftp/python/3.4.1/python- 
3.4.1.msi) 
。 Windows x86-64 MSI installer (64 位 ，https://www.python.org/ftp/python/3.4.1/python- 


3.4.1.amd64.msi) 
如 果 你 不 清楚 自己 的 Windows 到 底 是 32 位 还 是 64 位 ， 可 以 执行 下 面 儿 步 来 查看 : 


() 点 击 “ 开 始 ”按钮 ， 
(2) 右键 点 击 “ 计 算 机 ”; 
(3) 点 击 “ 属 性 ”， 就 可 以 找到 相关 信息 了 。 


点 击 适当 的 安装 包 链 接 (.msi 文件 )。 下 载 完成 后 双击 打开 ， 并 根据 安装 指导 进行 安装 。 











D.1.3 Linux 或 Unix 
Linux 和 Unix 用 户 可 以 选择 下 载 Python 源 代码 的 压缩 文人 
。 XZ compressed source tarball (https:Wwww.python.org/ftp/python/3.4.1/Python-3.4.1.tar.xz) 





让 





。 Gzipped source tarball (https:Wwww.python.org/ftp/python/3.4.1/Python-3.4.1.tgz) 


下 载 上 面 两 个 链接 中 的 一 个 。 使 用 tar x] (.xz 文件) 或 tar xz (.tgz 文 件 ) 命令 解压 ， 然 
后 运行 解压 得 到 的 shell es 


D.2 安装 Anaconda 


Anaconda 是 一 个 针对 科学 计算 设计 的 多 合 一 安装 包 : 包括 Python 本 体 、 标 准 库 以 及 许多 
实用 的 第 三 方 库 。 目 前 为 止 ，Anaconda 自 带 的 仍 是 Python 2 以 及 对 应 的 解释 器 ， 但 我 们 可 
以 使 用 一 些 变通 的 方法 强制 它 安 装 Python 3。 


最 新 的 升级 版 本 ，Anaconda 2.0 会 安装 最 近 版 本 的 Python 及 其 标准 库 (编写 此 书 时 是 
3.4)。 它 还 会 安装 一 些 其 他 的 实用 工具 ， 包 括 本 书 中 讨论 过 的 一 些 库 : beautifulsoup4、 
flask、 ipython、 matplotlib、nose、numpy、pandas、pillow、pip、scipy、tables、zmq, 
等 等 。Anaconda 还 包括 一 个 跨 平台 的 安装 程序 conda， 它 是 pip 的 增强 版 ， 之 后 会 简单 介 


绍 它 。 





























前 往 与 Python 3 版 本 对 应 的 下 载 页 (http://repo.continuum.io/anaconda3/) 下 载 安 装 
Anaconda 2。 点 击 与 你 使 用 的 平台 对 应 的 链接 (具体 的 版 本 信息 可 能 与 下 面 列 出 的 不 一 致 ， 
但 我 相信 你 能 识别 出 应 该 下 载 哪 一 个 )。 


。 如 果 需 要 在 Mac 上 使 用 ,点 击 Anaconda3-2.0.0-MacOSX-x86_64.pkg (http://repo.continuum. 
io/anaconda3/Anaconda3-2.0.0-MacOSX-x86_64.pkg)。“ 下 载 完 成 后 双击 打开 文件 ， 然 后 按 
提示 步 又 安装 Anaconda 即 可 。 安 装 器 会 将 所 有 内 容 安装 到 home 目录 下 面 的 anaconda 子 
目录 中 。 

。 对 于 Windows 用 户 ， 点 击 32-bit version (http://bit.ly/a/warning?url=http%3a%2f9%2frepo 




















注 1; 一 般 是 /Users/Your_Name。 译 者 注 
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%2econtin uum%2eio%2fanaconda3%2fAnaconda3%2d2%2e0%2e0%2dWindows%2dx86%2e 
exe&hash=win-32b) 或 者 64-bit version (http://bit.ly/a/warning?url=http%3a9%2f%2frepo%2 
econtinuum%2eio%2fanaconda3%2fAnaconda3%2d2%2e0%2e0%2dWindows%2dx86%5f64 
%2eexe&hash=win-64b) 进行 下 载 。 下 载 完 成 后 双击 .exe 进行 安装 。 

。 对 于 Linux 用 户 ， 点 击 32-bit version (http://repo.continnum.io/anaconda3/Anaconda3-2.0.0- 
Linux-x86.sh) 或 者 64-bit version (http://bit.ly/a/warning?url=http%3a9%2f9%2frepo9%2econtin 
uumM%2eio%2fanaconda3%2fAnaconda3%2d2%2e0%2e0%2dWindows%2dx86%5f64%2eexe& 
hash=win-64b) 进行 下 载 。 下 载 结束 后 ， 执 行 它 〈 一 个 大 型 shell 脚本 ) 即 可 。 


确保 你 下 载 的 文件 是 以 Anaconda3 开头 的 。 如 果 文 件 名 仅仅 是 以 Anaconda 
开头 ， 那 么 你 下 载 的 应 该 是 Python 2 对 应 的 版 本 ， 它 不 是 我 们 想 要 的 。 














Anaconda 将 所 有 文件 都 安装 到 属于 它 自己 的 目录 中 (home 路 径 下 anaconda 目录 中 )。 这 
意味 着 它 的 安装 不 会 对 你 电脑 上 的 任何 Python 版 本 产生 影响 ， 同 时 你 也 不 需要 特殊 的 权限 
( 像 admin 和 root 之 类 的 ) 来 执行 安装 。 


如 果 你 想 要 知道 Anaconda 包含 哪些 Python 包 ， 可 以 访问 Anaconda 文档 页 (http://docs. 
continuum.io/anaconda/pkg-docs.html) ， 点 击 文档 顶部 选择 框 中 的 “Python version: 3.4” 即 
可 。 我 上 次 查看 时 总 共 列 出 了 141 个 包 。 

安装 完毕 Anaconda 2 后 ， 你 可 以 看 看 这 位 “圣诞 老人 ”都 在 你 的 电脑 里 放 了 些 什么 小 礼 
物 。 执 行 下 面 的 命令 : 


$ ./conda list 














# packages in environment at /Users/williamlubanovic/anaconda: 


# 

anaconda 2.0.0 np18py34_0 
argcomplete 0.6.7 py34_0 
astropy 0.3.2 np18py34_0 
backports.ssL-match-hostname 3.4.0.2 <pip> 
beautiful-soup 4.3.1 py34_0 
beautifulsoup4 4.3.1 <pip> 
binstar 0.5.3 py34_0 
bitarray 0.8.1 py34_0 
blaze 0.5.0 np18py34_0 
blz 0.6.2 np18py34_0 
bokeh 0.4.4 np18py34_1 
cdecimal 2.3 py34_0 
colorama 0.2.7 py34_0 
conda 3.5,2 py34_0 
conda-build 13:3 py34_0 
configobj 5:0.5 py34_0 
curl 7.30.0 2 
cython 0.20.1 py34_0 
datashape 0.2.0 np18py34_1 
dateutil 2.1 py34_2 
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docutils 
dynd-python 
flask 
freetype 
future 
greenlet 
hspy 

hdf5 
ipython 
ipython-notebook 
ipython-qtconsole 
itsdangerous 
jdcal 
jinja2 

jpeg 
libdynd 
libpng 
libsodium 
libtiff 
libxml2 
libxslt 
LLvm 

LLvmpy 

lxml 
markupsafe 
matplotlib 
mock 
multipledispatch 
networkx 
nose 

numba 
numexpr 
numpy 
openpyxl 
openssl 
pandas 
patsy 
pillow 

pip 

ply 

psutil 

py 

pycosat 
pycparser 
pycrypto 
pyflakes 
pygments 
pyparsing 


pyqt 
pytables 


pytest 

python 
python-dateutil 
python .app 

pytz 
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<pip> 
py34_2 
py34_0 
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pyyaml 
pyzmq 

qt 
readline 
redis 
redis-py 
requests 
rope 
rope-py3k 
runipy 
scikit-image 
scipy 
setuptools 
sip 

six 

sphinx 
spyder 
spyder-app 
sqlalchemy 
sqlite 
ssl_match_hostname 
sympy 
tables 

tk 

tornado 
ujson 
werkzeug 
xlrd 
xlsxwriter 
yaml 
zeromq 
zlib 
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D.3 安装 并 使 用 ptp 和 virtuaLenv 


pip 是 最 受 欢迎 的 管理 第 三 方 〈 非 标准 库 ) Python 包 的 包 。 这 么 实用 的 一 款 工具 竟然 不 是 
标准 Python 的 一 部 分 实在 是 让 人 觉得 很 烦恼 ， 因 


个 朋友 曾 2 


virtualenv 


以 避免 它 与 一 些 已 经 安装 了 的 Python 包 互 相 及 
安装 的 Python 包 ， 你 仍然 可 以 随心 所 和 欲 地 使 用 任何 你 喜 

















喜欢 的 Python 工具 ”。 














为 我 们 不 得 不 自己 手动 下 载 安装 。 我 的 一 
经 说 过 : 这 简直 就 是 残忍 恼人 的 仪式 。 好 销 息 是 从 Python 3.4 开始 ，pip 已 经 被 
包含 到 标准 Python 中 了 ! 

经 常 与 pip 一 起 使 用 ， 它 允许 我 们 将 Python 包 安 装 到 指定 的 路 径 (文件 夹 ) 中 
多 响 。 它 的 精髓 在 于 ， 即 使 你 没有 权限 修改 已 





如 果 你 安装 了 Python 3， 但 发 现 使 用 的 仍然 是 Python 2 版 本 的 ptp， 下 面 的 命令 可 以 帮助 
你 在 Linux 或 OS X 下 获取 Python 3 对 应 的 版 本 : 
$ curl -0 http://python-distribute.org/distribute_setup.py 
$ sudo python3 distribute_setup.py 
注 2: 既然 不 会 互相 影响 ， 重 新 安装 一 份 即 可 。 一 一 译 者 注 
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$ curl -0 https://raw.github.com/pypa/pip/master/contrib/get-pip.py 
$ sudo python3 get-pip.py 


上 面 的 命令 会 将 pip-3.3 安装 到 你 的 Python 3 安装 路 径 下 的 bitn 目录 中 。 之 后 你 就 可 以 使 
用 pip-3.3 而 不 是 Python 2 的 pip 来 安装 第 三 方 包 了 。 


下 面 列 出 一 些 有 关 pip 和 virtualenv 教程 的 链接 : 


。 Anon-magical introduction to Pip and Virtualenv for Python beginners (http:/www.dabapps. 














com/blog/introduction-to-pip-and-virtualenv-python/) 
。 The hitchhiker's guide to packaging: pip (http://the-hitchhikers-guide-to-packaging. 
readthedocs.org/en/latest/pip.htm!l) 


D.4 安装 并 使 用 conda 


目前 为 止 ，ptp 下 载 得 到 的 大 多 是 源 文件 而 不 是 编译 完成 的 二 进 制 文件 ， 但 有 些 Python 模 
块 并 不 是 用 Python 编写 的 而 是 用 C 语言 库 编写 的 ， 这 意味 着 我 们 不 得 不 进行 额外 的 编译 
工作 ， 非 常 麻 烦 。 最 近 ，Anaconda 的 开发 者 们 编写 了 conda (http://www.continuum.io/blog/ 
conda) ， 旨 在 解决 使 用 pip 和 其 他 工具 时 存在 的 各 种 问题 。pip 是 一 个 Python 专属 的 包 管 
理 器 ， 但 conda 可 以 运行 在 任何 软件 和 语言 环境 中 。conda 还 同时 解决 了 使 用 pip 时 不 得 
不 同时 使 用 virtualenv 这 样 的 工具 来 保证 安装 的 包 之 间 互 不 影响 的 问题 。 

如 果 你 安装 了 Anaconda，conda 就 已 经 附带 安装 完毕 。 如 果 你 没有 安装 Anaconda， 可 以 从 
miniconda 网 页 (http://conda.pydata.org/miniconda.html) 下 载 conda 和 与 它 绑 定 的 Python 
3。 和 Anaconda 一 样 ， 请 确保 你 下 载 的 文件 以 Miniconda3 开头 ， 仅 以 由 nitconda 开头 的 是 
Python 2 对 应 的 版 本 。 

conda 依赖 pip。 尽 管 conda 有 自己 的 包 仓库 (https://binstar.org/) ， 但 像 conda search 这 样 
的 命令 在 执行 时 除了 搜索 conda 包 仓 库 中 的 内 容 外 ， 还 会 搜索 PyPi 库 (http://pypi.python. 
org/) 。 如 果 你 在 使 用 pip 时 遇 到 了 问题 ， 不 妨 试 试 conda。 
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附录 E 


习题 解 他 





E.1 第 1 章 “Python 初 探 ” 


(1) 如 果 你 还 没有 安装 Python 3， 现 在 就 并 刻 动手 。 具 体 方法 请 阅读 附录 D。 
(2) 启动 Python 3 交互 式 解 释 器 。 再 说 一 次 ， 具 体 方法 请 阅读 附录 D。 它 会 打印 出 儿 行 信 息 
和 一 行 >>>， 这 是 你 输入 Python 命令 的 提示 符 。 


下 面 是 在 我 的 MacBook Pro 上 显示 的 内 容 : 



































$ python 

Python 3.3.0 (v3.3.0:bd8afb9Qebf2, Sep 29 2012, 01:25:11) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>> 


(3) 随便 玩 玩 解释 器 。 可 以 用 它 来 计算 8 * 9。 按 下 回 车 来 查看 结果 ，Python 应 该 会 打印 出 72。 





























72 

(输入 数字 47 并 按 下 回 车 ， 解 释 器 有 没有 在 下 一 行 打印 出 47 ? 
>>> 47 
47 


(5) 现 在 输入 print(47) 并 按 下 回 车 ， 解 释 跨 有 没有 在 下 一 行 打印 出 47 ? 








>>> print(47) 
47 
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巨 之 第 2 章 “Python 基 本 元 素 : 数字 、 字 符 串 和 变量 ” 


(1) 一 个 小 时 有 多 少 秒 ? 这 里 ， 请 把 交互 式 解 释 器 当 作 计算 器 使 用 ， 将 每 分 钟 的 秒 数 (60) 
乘 以 每 小 时 的 分 钟 数 〈60) 得 到 结果 。 


>>> 60 * 60 
3600 


(2) 将 上 一 个 练习 得 到 的 结果 (每 小 时 的 秒 数 ) 赋值 给 名 为 seconds_per_hour 的 变量 。 
>>> Seconds_per_hour = 60 * 60 


>>> Seconds_per_hour 
3600 


(3) 一 天 有 多 少 秒 ? 用 你 的 seconds_per_hour 变量 进行 计算 。 





>>> Seconds_per_hour * 24 
86400 


(4) 再 次 计算 每 天 的 秒 数 ， 但 这 一 次 将 结果 存储 在 名 为 seconds_per_day 的 变量 中 。 


>>> Seconds_per_day = seconds_per_hour * 24 
>>> Seconds_per_day 
86400 


(5) 用 seconds_per_day 除 以 seconds_per_hour ,使 用 浮 点 除法 (/)。 























>>> Seconds_per_day / seconds_per_hour 
24.0 





(6) 用 seconds_per_day 除 以 seconds_per_hour， 使 用 整数 除法 (//)。 除 了 末尾 的 .9， 本 
练习 所 得 结果 是 否 与 前 一 个 练习 用 浮 点 数 除法 得 到 的 结果 一 致 ? 


>>> Seconds_per_day // seconds_per_hour 
24 


E.3 


(1) 创建 一 个 叫 作 years_List 的 列表 ， 存 储 从 你 出 生 的 那 一 年 到 你 五 岁 那 一 年 的 年 份 。 例 
如 ， 如 果 你 是 1980 年 出 生 的 ， 那 么 你 的 列表 应 该 是 years_list = [1980，1981，1982， 
1983，1984，1985] 。 
假设 你 出 生 在 1980 年 ， 输 入 如 下 所 示 : 

>>> years_list = [1980，1981，1982，1983，1984，1985] 
(2) 在 years_list 中 ， 哪 一 年 是 你 三 岁 生 日 那 年 ? 别 忘 了 ， 你 出 生 的 第 一 年 算 0 岁 。 
你 需要 的 偏 移 量 为 3， 如 果 你 出 生 在 1980 年 ， 那 么 : 


>>> years_list[3] 
1983 
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(3) 在 years_tList 中 ， 哪 一 年 你 的 年 纪 最 大 ? 





你 需要 得 到 列表 中 的 最 后 一 项 ， 因 此 使 用 偏 移 量 -1， 或 者 你 也 可 以 使 用 偏 移 量 5， 因 为 
你 已 经 提前 知道 列表 中 有 6 项 ， 但 是 -1 返回 任何 大 小 列表 的 最 后 一 项 。 对 于 一 个 1980 
年 代 的 人 : 


>>> years_list[-1] 
1985 





(4) 创 建 一 个 名 为 things 的 列表 ， 包 含 以 下 三 个 元 素 : "mozzarella"、"cinderella" 和 


"salmonella", 


>>> things = ["mozzarella", "cinderella", "salmonella"] 
>>> things 


['mozzarella', 'cinderella', 'salmonella'] 





(5) 将 things 中 代表 人 名 的 字符 串 变 成 首 字母 大 写 形式 ， 并 打印 整个 列表 。 看 看 列表 中 的 
元 素 改 变 了 么 ? 














了 














下 面 的 方法 实现 了 单词 首 字 母 大 写 ， 但 是 没有 在 列表 中 改变 它 ; 
>>> things[1].capitalize() 

"CindereLLa' 

>>> things 

['mozzarella', 'cinderella', 'salmonella'] 





如 果 你 想 在 列表 中 改变 它 ， 应 该 将 它 重 新 赋值 回 列表 : 
>>> things[1] = things[1].capitalize() 
>>> things 
['mozzarella', 'Cinderella', 'salmonella'] 


(6) 将 things 中 代表 奶 酷 的 元 素 全 部 改 成 大 写 ， 并 打印 整个 列表 。 
>>> things[0] = things[0].upper() 
>>> things 
['MOZZARELLA', 'Cinderella', 'salmonella'] 


(7) 将 代表 疾病 的 元 素 从 things 中 删除 ， 收 好 你 因此 得 到 的 诺 贝 尔 奖 ， 并 打印 列表 。 
按照 值 删 掉 它 : 
>>> things.remove("salmonella") 


>>> things 
['MOZZARELLA', 'Cinderella'] 




















Ba 








为 它 是 列表 中 的 最 后 一 项 ， 所 以 下 面 的 方法 也 是 可 行 的 : 
>>> del things[-1] 
或 者 从 列表 开始 处 按照 偏 移 量 删 掉 它 : 


>>> del things[2] 

















一 





(8) 创建 一 个 名 为 surprise 的 列表 ， 包 含 以 下 三 个 元 素 : "Groucho"、"Chico" 和 "Harpo"。 
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>>> surprise = ['Groucho', 'Chico', 'Harpo'] 
>>> surprise 
['Groucho', 'Chico', 'Harpo'] 


(9) 将 surprise 列表 的 最 后 一 个 元 素 变 成 小 写 ， 翻 转 过 来 ， 再 将 首 字母 变 成 大 写 。 


>>> surprise[-1] = surprise[-1].Lower() 
>>> surprise[-1] = surprise[-1][::-1] 
>>> surprise[-1].capitalize() 

"Oprah' 


(10) 创建 一 个 名 为 e2f 的 英法 字典 并 打印 出 来 。 这 里 提供 一 些 单词 对 : dog 是 chien、cat 


是 chat 以 及 walrus 是 morse。 








>>> e2f = {'dog': 'chien', 'cat': 'chat', 'walrus': 'morse'} 
>>> e2f 
{'cat': 'chat', 'walrus': 'morse', 'dog': 'chien'} 











(11) 使 用 你 的 仅 包 含 三 个 词 的 字典 e2f 查询 并 打印 出 watrus 对 应 的 法 语词 。 


>>> e2f['walrus'] 




















"morse' 
(12) 利用 e2f 创建 一 个 名 为 f2e 的 法 英 字 典 。 注 意 要 使 用 items 方法 。 
>>> f2e = {} 


>>> for english, french in e2f.items(): 
f2e[french] = english 

>>> f2e 

{'morse': 'walrus', 'chien': 'dog', 'chat': 'cat'} 


(13) 使 用 f2e， 查 询 并 打印 法 语词 chien 对 应 的 英文 词 。 


>>> f2e['chien'] 
'dog， 


(14) 创建 并 打印 由 e2f 的 键 组 成 的 英语 单词 集合 。 


>>> set(e2f.keys()) 
{'cat', 'walrus', 'dog'} 


(15) 建立 一 个 名 为 Life 的 多 级 字典 ， 将 下 面 这 些 字符 串 作为 顶级 键 : 'animals'、'plants' 
以 及 'others'。 今 'animals' 键 指向 另 一 个 字典 ， 这 个 字典 包含 键 "cats' 、'octopi' 


以 及 'emus'。 今 'cats' 键 指向 一 i 这 个 列表 包括 'Henri' "Grpy' 和 
'Lucy' 。 让 其 余 的 键 都 指向 空 字典 。 


这 是 一 道 比较 难 的 题 ， 如 果 第 一 眼看 到 ， 不 要 觉得 不 舒服 : 


>>> Life = { 
"animals': { 
'cats': [ 
'Henri', 'Grumpy'’, "LUcy 
]， 
'octopi': {}, 
'emus': {} 
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}， 
'plants': {}, 
'other': {} 


>>> 


(16) 打印 tife 的 顶级 键 。 


>> print(life.keys()) 
dict keys(['animals', 'other', 'plants']) 


Python 3 包含 dict_keys 的 项 ， 把 它 作 为 普通 的 列表 打印 输出 : 


>>> print(list(life.keys())) 
['animals', 'other', 'plants'] 


顺便 提 一 句 ， 在 代码 中 多 加 空格 可 以 提高 可 读 性 : 


>>> print ( list ( life.keys() ) ) 
['animals', 'other', 'plants'] 


(17) 打印 Life[ 'animals'] 的 全 部 键 。 


>>> print(life['animals'].keys()) 
dict keys(['cats', 'octopi', 'emus']) 


(18) 打印 Life[ 'animals']['cats'] 的 值 。 


>>> print(life['animals']['cats']) 
['Henri', 'Grumpy', 'Lucy'] 


E.4 第 4 章 “Python 外 过 : 代码 结构 ” 


(将 7 赋值 给 变量 guess_me， 然 后 写 一 段 条 件 判 断 (if、else 和 elif) 的 代码 ， 如 
果 guess_me 小 于 7 输出 'too Low'， 大 于 7 则 输出 'too high'， 等 于 7 则 输出 'just 
right ' 。 




















guess me = 7 
if guess_me < 7: 
print( too low') 
elif guess_me > 7: 
print( too high') 
else: 
print('just right') 


执行 这 段 代 码 得 到 如 下 结果 : 
just right 
(2) 将 7 赋值 给 变量 guess_me， 再 将 1 赋值 给 变量 start。 写 一 段 while 循环 代码 比较 start 


和 guess_me: 如 果 start 小 于 guess_me 则 输出 'too Low'， 如 果 等 于 则 输出 "found 
it' ， 如 果 大 于 则 输出 'oops' ， 然 后 终止 循环 。 在 每 次 循环 结束 时 自 增 start。 








guess me = 7 
start = 1 
while True: 
if start < guess_me: 
print('too low') 


elif start == guess_me: 
print('found it!') 
break 


elif start > guess_me: 
print('oops') 














break 
start += 1 
如 果 代 码 正 确 执行 ， 结 果 如 下 所 示 : 
too low 
too low 
too low 
too low 
too low 
too low 
found it! 
注意 elif start > guess_me; 这 一 行 可 以 只 用 简单 的 else:， 因 为 start 不 小 于 等 于 
guess_me 即 大 于 ， 至 少 在 这 是 对 的 。 
(3) 使 用 for 循环 输出 列表 [3，2，1，9] 的 值 。 
>>> for value in [3, 2, 1, 0]: 
print(value) 
A 
2 
1 
0 
(4) 使 用 列表 推导 生成 10 以 内 (range(10)) 偶数 的 列表 。 
>>> even = [number for number ;in range(10) if number % 2 == 0] 


>>> even 
[9, 2, 4, 6, 8] 


(5) 使 用 字典 推导 创建 字典 squares。 把 0~9 内 的 整数 作为 键 ， 每 个 键 的 平方 作为 对 应 的 


值 。 


>>> Squares = {key: key*key for key in range(10)} 
>>> squares 


{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81} 


(6) 使 用 集合 推导 创建 集合 odd， 包 含 0~9 内 (range(10)) 的 奇数 。 


>>> odd = {number for number in range(10) if number % 2 == 1} 


>>> odd 
{L133"9 33 7} 
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(7) 使 用 生成 器 推导 返回 字符 串 "Got ' 和 0~9 内 的 一 个 整数 ， 使 用 for 循环 进行 迄 代 。 


>> for thing in ('Got %s' % number for number in range(10)): 
print(thing) 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 
Got 


‘OOOUPAWDNTPPO 


(8) 定义 函数 good(): 返回 列表 ['Harry'，'Ron'，'Hermione']。 





>>> def good(): 
return ['Harry', 'Ron', 'Hermione'] 
So good() 
['Harry', 'Ron', 'Hermione'] 
(9) 定义 一 个 生成 器 函数 get_odds(): 返回 0~9 内 的 奇数 。 使 用 for 循环 查找 并 输出 返回 的 
>>> def get _odds(): 


for number ;in range(1, 10, 2): 
yield number 





>>> for count, number in enumerate(get odds(), 1): 


if count == 3: 
print("The third odd number is", number) 
break 


The third odd number is 5 


(10) 定义 一 个 装饰 器 test: 当 一 个 函数 被 调用 时 输出 'start' ， 当 函数 结束 时 输出 'end'。 


>>> def test(func): 
def new_func(*args, **kwargs): 
print('start') 
result = func(*args, **kwargs) 
print('end') 
return result 
return new_func 





>>> 
>>> Qtest 
. def greeting(): 
print("Greetings, Earthling") 


>>> greeting() 
start 





Greetings, Earthling 
end 


(11) 定义 一 个 异常 0opsException: 编写 代码 捕捉 该 异常 ， 并 输出 "Caught an oops'。 























>>> class OopsException(Exception): 
pass 


>>> raise OopsException() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
_ main__ .0opsException 
>>> 
>>> try: 
raise OopsException 
. except OopsException: 
print('Caught an oops') 


Caught an oops 


(12) 使 用 函数 zip() 创建 字典 movies: 匹配 两 个 列表 titles = ['Creature of Habit'， 
'Crewel Fate'] 和 plots = ['A nun turns into a monster', 'A haunted yarn shop '] 。 





>>> titles = ['Creature of Habit', 'Crewel Fate'] 

>>> plots = ['A nun turns into a monster', 'A haunted yarn shop'] 

>>> movies = dict(zip(titles, plots)) 

>>> movies 

{'Crewel Fate': 'A haunted yarn shop', 'Creature of Habit': 'A nun turns 
into a monster'} 


E.5 第 5 章 “Python 盒 子 : 模块 、 包 和 程序 ” 


(1) 创建 文件 zoo.py。 在 文件 中 定义 函数 hours: 输出 字符 串 '0pen 9-5 daily'。 然 后 使 用 
交互 式 解释 器 导入 模块 zoo， 调 用 函数 hours。 下 面 是 文件 zoo.py: 


def hours(): 
print('Open 9-5 daily') 


现在 ， 在 解释 器 中 导入 它 : 


>>> import zoo 
>>> zoo.hours() 
Open 9-5 daily 


(2) 在 交互 式 解 释 器 ， 把 模块 zoo 作为 nenagerie 导入 ， 然 后 调用 函数 hours()。 


>>> import zoo as menagerie 
>>> menagerie.hours() 
Open 9-5 daily 


(3) 继续 在 解释 器 中 ， 直 接 从 模块 zoo 导入 函数 hours()， 然 后 调用 。 


>>> from zoo import hours 
>>> hours() 
Open 9-5 daily 
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(4) 把 函数 hours() 作为 info 导入 ， 然 后 调用 它 。 


>>> from zoo import hours as info 
>>> info() 
Open 9-5 daily 


(5) 创建 字典 plain; 包含 键 值 对 'a' :1、'b':2 和 'c':3， 然 后 输 H 











Lb 
N 











>>> plain = {'a': 1, 'b': 
>>> plain 
{a ly “cu 3 0b 2 


(6) 创建 有 序 字 典 fancy: 键 值 对 和 (5) 相同， 然后 输出 它 。 输 出 顺序 和 plain 相同 吗 ? 




















>>> from collections import OrderedDict 

>>> fancy = OrderedDict([('a', 1), ('b', 2), ('c', 3)]) 
>>> fancy 

OrderedDict([('a', 1), ('b', 2), ('c', 3)]) 


(7) 创建 默认 字典 dtict_of_Lists， 传 入 参数 List: 给 由 ct_of_lists['a'] 赋值 'something 
for a'， 输 出 dict_of_Lists['a'] 的 值 。 














>>> from collections import defaultdict 

>>> dict_of_lists = defaultdict(list) 

>>> dict_of_lists['a'].append('something for a') 
>>> dict_of_lists['a'] 

['something for a'] 


E.6 第 6 章 “ 对 象 和 类 ” 
(D) 创建 一 个 名 为 Thing 的 空 类 并 将 它 打印 出 来 。 接 着 创建 一 个 属于 该 类 的 对 象 example， 
同样 将 它 打印 出 来 。 看 看 这 两 次 打印 结果 是 一 样 的 还 是 不 同 的 ? 


>>> class Thing: 
pass 
































>>> print(Thing) 

<class '__main__.Thing'> 

>>> example = Thing() 

>>> print(example) 

<__main__.Thing object at 0x1006f3fd0> 


(2) 创建 一 个 新 类 Thing2， 将 'abc' 赋值 给 类 特性 Letters， 打 印 Letters。 




















>>> class Thing2: 
letters = 


1 1 


abc 


>>> print(Thing2.Letters) 
abc 


(3) 再 创建 一 个 新 类 Thing3。 这 次 将 'xyz' 赋值 给 实例 (对象) 特性 Letters， 并 打印 
Letters。 看 看 你 是 不 是 必须 先 创建 一 个 对 象 才 可 以 进行 打印 操作 ? 























>>> CLass Thing3: 
def _ init (self): 


self.letters = 'xyz' 


变量 letters 属于 类 Thing3 的 任何 对 象 ， 而 不 是 Thing3 类 本 身 : 


>>> print(Thing3.Letters) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: type object 'Thing3' has no attribute 'letters' 
>>> something = Thing3() 
>>> print(something.letters) 
xyz 


(4) 创建 一 个 名 为 ELement 的 类 ， 它 包含 实例 属性 name、symbol 和 number。 使 用 'Hydrogen'、 
'H' 和 1 实例 化 一 个 对 象 hydrogen。 








>>> class Element: 
def _ init (self, name, symbol, number): 
seLf .name = name 
self.symbol = symbol 
self.number = number 


>>> hydrogen = Element('Hydrogen', 'H', 1) 


(5) 创建 一 个 字典 ， 包 含 这 些 键 值 对 : 'name': 'Hydrogen'、'symbol': 'H' 和 'number': 1。 








然后 用 这 个 字典 实例 化 Element 类 的 对 象 hydrogen。 
首先 创建 该 字典 : 
>>> el_dict = {f'name': 'Hydrogen', 'symbol': 'H', 'number': 1} 


虽然 会 编写 较 多 代码 ， 但 这 是 可 行 的 : 
>>> hydrogen = Element(el dict['name'], el_dict['symbol'], el_dict['number']) 
检查 一 下 实例 化 的 结果 : 
>>> hydrogen.name 
'Hydrogen' 
然而 ， 你 可 以 直接 从 字典 初始 化 对 象 ， 因 为 它 的 键 名 称 是 和 __init_ 参数 相 匹 配 的 
(参考 第 3 章 关 于 关键 字 参 数 的 讨论 ) : 
>>> hydrogen = Element(**el_dict) 
>>> hydrogen.name 
"Hydrogen 
(6) 为 ELement 类 定义 个 dump() 方法 ， 用 于 打印 对 象 的 属 
用 这 个 新 类 创建 一 个 对 象 hydrogen 并 用 dump() 打印 。 
>>> CLass ELement : 


def _ init (self, name, symbol, number): 
seLf.name = name 




















隆 (name、symbol 和 number)。 使 
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seLf .symboL = symbol 
self.number = number 
def dump(self): 
print('name=%s, symbol=%s, number=%s' % 
(self.name, self.symbol, self.number)) 


>>> hydrogen = Element(**el_dict) 
>>> hydrogen.dump() 
name=Hydrogen，symboL=H，number=1 


(7) 调 用 print(hydrogen)， 然 后 修改 Element 的 定义 ， 将 dump 方法 的 名 字 改 为 _str_。 














再 次 创建 一 个 hydrogen 对 象 并 调用 print(hydrogen) ， 观 察 输 出 结果 。 


>>> print(hydrogen) 
<__main__.Element object at 0x1006f5310> 
>>> class Element: 
def _ init (self, name, symbol, number): 
self.name = name 
self.symbol = symbol 
self.number = number 
def _ str__(self): 
return ('name=%s, symbol=%s, number=%s' % 
(self.name, self.symbol, self.number)) 








>>> hydrogen = Element(**el_dict) 
>>> print(hydrogen) 
name=Hydrogen, symbol=H,number=1 





__str_() 是 Python 的 一 个 魔术 方法 ，print 函数 调用 一 个 对 象 的 __str_() 方 法 获取 
它 的 字符 串 表 示 。 如 果 类 中 没有 定义 _str_() 方法 ， 它 会 采用 父 类 的 默认 方法 ， 返 回 


类 似 于 <_main__.Element object at 0x1006f5310> 的 一 个 字符 串 。 


(8) 修改 Element 使 得 name、symbol 和 number 特性 都 变 成 私有 的 。 为 它们 各 定义 一 个 getter 





属性 (property) 来 返回 各 自 的 值 。 


>>> CLass ELement : 
def _ init (self, name, symbol, number): 
self._ name = name 
self.__symbol = symbol 
self.__number = number 
@property 
def name(self): 
return self._ name 
@property 
def symbol(self): 
return self.__symbol 
@property 
def number(self): 
return self._ number 


>>> hydrogen = Element('Hydrogen', 'H', 1) 
>>> hydrogen.name 

“Hydrogen ' 

>>> hydrogen.symbol 
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(9) 定 义 三 个 类 : Bear、Rabbit 和 0ctothorpe。 对 每 个 类 都 
返回 'berries'(Bear)、'clover'(Rabbit) 和 'campers'(0ctothorpo)。 为 每 个 类 创建 一 
它们 各 自 吃 的 食物 (调用 eats())。 


返 


个 对 象 并 输 


'H， 
>>> hydrogen.number 
1 








>> class Bear: 
def eats(self): 
return 'berries' 


>>> class Rabbit: 
def eats(self): 
return 'clover' 


>>> class Octothorpe: 
def eats(self): 
return “Campers ' 


>>> b = Bear() 

>>> rr = Rabbit() 
>>> 0 = Octothorpe() 
>>> print(b.eats()) 
berries 

>>> print(r.eats()) 
clover 

>>> print(o.eats()) 
campers 





只 定义 一 个 方法 eaats()， 分 别 





tt 


(10) 定义 三 个 类 : Laser、Claw 以 及 SmartpPhone。 每 个 类 都 仅 有 一 个 方法 does()， 分别 返 
回 'disintegrate'(Laser)、'cursh'(Claw) 以 及 'ring'(SmartPhone)。 接 着 定义 Robot 
类 ， 包 含 上 述 三 个 类 的 实例 (对 象 ) 各 一 个 。 给 Robot 定义 does() 方法 ， 用 于 输出 它 





各 部 分 的 功能 。 


>>> CLass Laser : 
def does(self): 
return 'disintegrate’ 


>>> class Claw: 
def does(self): 
return 'crush' 


>>> class SmartPhone: 
def does(self): 
return 'ring' 


>>> class Robot: 
def _ init (self): 
self.laser = Laser() 
self.claw = Claw() 
self.smartphone = SmartPhone() 
def does(self): 


return '''I have many attachments: 
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.. My Laser，to %s . 

. My claw, to %s . 

. My smartphone, to %s.''' %( 
seLf .Laser.does()， 
self.claw.does(), 
self.smartphone.does() ) 


>>> robbie = Robot() 

>>> print( robbie.does() ) 
I have many attachments: 
My laser, to disintegrate. 
My claw, to crush. 

My smartphone, to ring. 


= 三 = + 半 二 二 米 59 
E.7 第 7 章 “ 像 高 手 一 样 玩 转 数 
(D 创建 一 个 Unicode 字符 串 mystery 并 将 它 的 值 设 为 '\U6601f4a9' 。 打 印 mystery， 并 查 
看 mystery 的 Unicode 名 称 。 








>>> import unicodedata 
>>> mystery = '\U0001f4a9' 
>>> mystery 











>>> Unicodedata.name(mystery) 
"PILE OF POO’ 


它们 还 会 变 成 什么 呢 ? 


(2) 使 用 UTF-8 对 mystery 进行 编码 ， 存 人 字 节 型 变量 pop_bytes， 并 将 它 打 印 出 来 。 








>>> pop_bytes = mystery.encode('utf-8') 
>>> pop_bytes 
b'\xfoO\x9f\x92\xa9’ 








(3) 使 用 UTF-8 对 pop_bytes 进行 解码 ， 存 入 字符 串 型 变量 pop_string， 并 将 它 打印 出 来 ， 
看 看 它 与 mystery 是 否 一 致 ? 


>>> pop_string = pop_bytes.decode('utf-8') 
>>> pop_string 




















>>> pop_string == mystery 
True 


(4) 使 用 旧式 格式 化 方法 生成 下 面 的 诗句 ， 把 'roast beef' 、'ham' 、'head' 以 及 'clam' 依 
次 插入 字符 串 ， 
My kitty cat likes %s ， 
My kitty cat likes %s, 


My kitty cat fell on his %s 
And now thinks he's a %s. 





rn 


>>> poem = 





... My kitty cat likes %s ， 
... My kitty cat likes %s, 
. My kitty cat fell on his %s 
. And now thinks he's a %s. 
>>> args = ('roast beef', 'ham', 'head', 'clam') 
>>> print(poem % args) 


My kitty cat likes roast beef, 
My kitty cat likes ham, 
My kitty cat fell on his head 
And now thinks he's a clanm. 
(5) 使 用 新 式 格式 化 方法 生成 下 面 的 套用 信 国 ， 将 下 面 的 字符 串 存储 为 letter (后 面 的 练 
习 中 会 用 到 ) : 


Dear {salutation} {name}, 

















Thank you for your letter. We are sorry that our {product} {verbed} in your 
{room}. Please note that it should never be used ;in a {room}, especially 
near any {animals}. 


Send us your receipt and {amount} for shipping and handling. We will send 
you another {product} that, in our tests, is {percent}% less likely to 
have {verbed}. 


Thank you for your support. 


Sincerely, 
{spokesman} 
{job_title} 
>>> letter = """ 

. Dear {salutation} {name}, 


. Thank you for your letter. We are sorry that our {product} {verb} in your 
. {room}. Please note that it should never be used in a {room}, especially 
. Near any {animals}. 


. Send us your receipt and {amount} for shipping and handling. We will send 
... you another {product} that, in our tests, is {percent}% Less likely to 
. have {verbed}. 


. Thank you for your support. 


. Sincerely, 
... {spokesman} 
. {job_title} 


(6) 创建 一 个 字典 response， 包 含 以 下 键 :;'salutaion'、'name'、'product'、verved ( 动 
词 过 去 式 )、'room'、'animals'、'percent'、'spokesman' 以 及 'job_title'。 设 定 这 些 


键 对 应 的 值 ， 并 打印 由 response 的 值 填充 的 Letter。 
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>>> response = { 


'salutation': 'Colonel', 
'name': “Hackenbush ' ， 
"product ' : 'duck blind', 
'verbed': 'imploded', 

'room': 'conservatory', 
'animals': 'emus', 

'amount': '$1.38', 

'percent': '1', 

'spokesman': 'Edgar Schmeltz', 
'job_title': 'Licensed Podiatrist' 
} 


>>> print( letter.format(**response) ) 
Dear Colonel Hackenbush, 


Thank you for your letter. We are sorry that our duck blind imploded in your 
conservatory. Please note that it should never be used in a conservatory, 
especially near any emus. 


Send us your receipt and $1.38 for shipping and handling. We will send 
you another duck blind that, in our tests, is 1% less likely to have imploded. 


Thank you for your support. 


Sincerely, 
Edgar Schmeltz 
Licensed Podiatrist 


(7) 正则 表达 式 在 处 理 文本 上 非常 方便 。 在 这 个 练习 中 ， 我 们 会 对 示例 文本 尝试 做 各 种 各 样 
的 操作 。 我 们 示例 文本 是 一 首 名 为 Ode on the Mammoth Cheese 的 诗 ， 它 的 作者 是 James 
McIntyre， 写 于 1866 年 ， 出 于 对 当时 安大略 湖 手工 制造 的 7000 磅 的 巨型 奶酪 的 敬意 ， 
它 当 时 甚至 在 全 球 巡 回 展 出 。 如 果 你 不 愿意 自己 一 字 一 句 敲 出 来 ， 直 接 百 度 一 下 粘贴 
到 你 的 Python 代码 里 即 可 。 你 也 可 以 从 Project Gutenberg (http:/www.gutenberg.org/ 
ebooks/36068?msg=welcome_stranger) 找到 。 我 们 将 这 个 字符 串 命 名 为 mnammoth。 












































>>> mammoth = 
. We have seen thee, queen of cheese， 
. Lying quietly at your ease, 
. Gently fanned by evening breeze, 
. Thy fair form no flies dare seize. 


. All gaily dressed soon you'll go 
. To the great Provincial show, 

.. To be admired by many a beau 
. In the city of Toronto. 


. Cows numerous as a Swarm of bees, 

. Or as the leaves upon the trees, 

. It did require to make thee please, 

. And stand unrivalled, queen of cheese. 
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. May you not receive a scar as 

. We have heard that Mr .Harris 

. Intends to send you off as far as 
. The great world's show at Paris. 


. Of the youth beware of these, 

. For some of them might rudely squeeze 

. And bite your cheek, then songs or glees 
. We could not sing, oh! queen of cheese. 


. We'rt thou suspended from balloon, 
. You'd cast a shade even at noon, 

. Folks would think it was the moon 
. About to fall and crush them soon. 


Tr 


(8) 引入 re 模块 以 便 使 用 正则 表达 式 相 关 函 数 。 使 用 re.findatt() 打印 出 所 有 以 'c' 开头 
的 单词 。 
首先 对 所 要 匹配 的 模式 定义 变量 pat， 然 后 在 mammoth 中 查找 : 
>>> import re 


>>> re = T'NbcNwx' 
>>> re.findall(pat, mammoth) 


[ ' 

















cheese', 'city', 'cheese', 'cheek', 'could', 'cheese', 'cast', 'crush'] 





\b 代表 以 单词 之 间 的 分 隔 符 作为 开始 ， 使 用 它 一 般 用 于 指定 单词 的 开始 或 者 结束 ， 字 
母 c 是 我 们 要 查找 单词 的 首 字母 。\w 代表 任意 单词 字符 (包括 字母 、 数 字 和 下 划 线 )。 
* 表 示 一 个 或 者 多 个 字符 。 综 合 起 来 ， 它 用 来 查找 以 字母 c 开头 的 单词 ， 包 括 'c' 本 


身 。 
符 ， 























如 果 你 不 使 用 原始 字符 串 (在 第 一 个 引号 前 加 rr)，Python 会 把 \b 解释 为 退 格 字 
查找 会 神奇 地 挂 掉 : 





>>> pat = '\bc\w*’ 
>>> re.findall(pat, mammoth) 


[] 


(9) 找到 所 有 以 < 开头 的 4- 字母 单词 。 


>>> pat = r'\bc\w{3}\b' 
>>> re.findall(pat, mammoth) 


[， 


city', 'cast'] 





你 需要 最 后 的 \b 来 指明 单词 的 结束 。 否 则 ， 你 会 得 到 所 有 以 < 开头 并 且 至 少 有 四 个 字 
母 的 单词 的 前 四 个 字母 : 


>>> pat = r'\bc\w{3}" 
>>> re.findall(pat, mammoth) 


[ 





chee', 'city', 'chee', 'chee', 'coul', 'chee', 'cast', 'crus'] 


(10) 找到 所 有 以 上 结尾 的 单词 。 




















下 画 


i 代码 使 用 要 小 心 ， 对 于 以 r 结尾 的 单词 会 得 到 完美 的 结果 : 
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>>> pat = r'\b\w*r\b' 
>>> re.findall(pat,mammoth) 
['your', 'fair', 'Or', 'scar', 'Mr', 'far', 'For', 'your', 'or'] 


然而 ， 用 在 以 1 结尾 的 单词 结果 就 不 好 : 

>>> pat = r'\b\w*1l\b' 

>>> re.findall(pat,mammoth) 

['All', '1ll', 'Provincial', 'fall'] 
但 是 ，11 为 什么 出 现在 那儿 ? \w 仅仅 匹配 到 字母 、 数 字 和 和 下划线， 不 会 匹配 到 ASCII 
中 的 撒 号 (')。 所 以 ， 它 会 从 you'1l 抽取 到 最 后 的 tL。 解决 该 问题 可 以 把 撒 号 加 到 要 匹 
配 的 字符 集合 。 第 一 次 这 样 做 失败 了 : 

>>> >>> pat = r'\b[\w']*1l\b' 


File "<stdin>", line 1 
pat = r'\b[\w']*l\b' 


Python 指 到 了 错误 附近 的 位 置 ， 但 仍然 需要 花费 一 段 时间 发 现 模式 串 被 两 个 引号 ( 撤 
号 ) 同时 包括 ， 一 个 解决 方法 是 加 转移 字符 : 

>>> pat = r'\b[\w\']*l\b' 

>>> re.findall(pat, mammoth) 

['All', "you'll", 'Provincial'’, 'fall'] 
另 一 种 方法 是 给 模式 串 加 双 引 号 : 


>>> pat = r"\b[\w']*l\b" 
>>> re.findall(pat, mammoth) 
['All', "you'll", 'Provincial'’, 'fall'] 


(11) 找到 所 有 包含 且 仅 包含 连续 3 个 元 音 的 单词 。 


开始 匹配 时 是 一 个 单词 边界 符 ， 然 后 任意 数目 的 字母 、 三 个 连续 的 元 音 ， 接 下 来 是 任意 
数目 的 非 元 音字 符 直 到 单词 结束 : 

>>> pat = r'\b\w*[aeiou]{3}[^aeiou]\w*\b’ 

>>> re.findall(pat, mammoth) 

['queen', 'qguietly', 'beau\nIn', 'queen', 'squeeze', 'queen'] 


上 面 的 匹配 看 起 来 是 对 的 ， 除 了 字符 串 'beau\nIn' 。 把 mammoth 作为 多 行 的 字符 串 进行 
搜索 ，[^aeiou] 匹配 任何 非 元 音字 符 包 括 换行 符 。 所 以 要 把 一 些 间隔 字符 加 入 到 忽略 集 
合 ， 例 如 \n(\s 匹配 到 间隔 字符 ) : 

>>> pat = r'\b\w*[aeiou]{3}[^aeiou\s]\w*\b' 


>>> re.findall(pat, mammoth) 
['queen', 'qguietly', 'qgueen', 'squeeze', 'queen'] 


但 这 一 次 没有 搜索 到 beau， 所 以 还 要 对 模式 串 进行 变动 ， 匹 配 到 三 个 连续 元 音 之 后 还 
要 匹配 任意 数目 的 非 元 音 。 之 前 的 模式 串 只 匹配 了 一 个 非 元 音 : 


>>> pat = r'\b\w*[aeiou]{3}[^aeiou\s]*\w*\b’ 
>>> re.findall(pat, mammoth) 
['queen', 'qguietly', 'beau', 'qgueen', 'squeeze', 'qgueen'] 





























上 罩 








i 所 有 的 内 容 表 明了 什么 ?其 中 一 点 是 : 正则 表达 式 可 以 完成 很 多 事情 ， 但 正确 使 用 








它 还 要 多 加 小 心 。 
(12) 使 用 unhextify() 将 下 面 的 十 六 进 制 串 〈 出 于 排版 原因 将 它们 拆 成 两 行 字符 串 ) 转换 


为 bytes 型 变量 ， 命 名 为 qif : 


"47494638396101000100800000000000ffffff21f9 + 


1 








0401000000002c000000000100010000020144003b 


>>> import binascii 
>>> hex_str = '47494638396101000100800000000000ffffff21f9' + \ 


"90401000000002c0900000000100010000020144003b ' 


>>> gif = binascii.unhexlify(hex_str) 
>>> Len(gif) 


(13) gif 定义 了 一 个 1 像素 的 透明 GIF 文件 〈 最 常见 的 图 片 格式 之 一 )。 合 法 的 GE 文件 开 
头 由 GIF89a 组 成 ， 检 测 一 下 上 面 的 gif 是 否 为 合法 的 GIF 文件 ? 


>>> gif[:6] == b'GIF89a' 
True 


注意 ， 我 们 使 用 b 来 定义 一 个 字 节 串 而 不 是 Unicode 字符 串 ， 你 可 以 在 字 节 之 间 做 比 











较 ， 但 是 不 能 用 字符 串 和 字 节 比较 ; 
>>> gif[:6] == 'GIF89a' 
False 


>>> type(gif) 
<class 'bytes'> 
>>> type('GIF89a') 
<class 'str'> 

>>> type(b'GIF89a ' ) 
<class 'bytes'> 


(14) GIF 文件 的 像素 宽度 是 一 个 16- 比特 的 以 大 端 方案 存储 的 整数 ， 偏 移 量 为 6 字 市 ， 高 


度 


日 
息 





数据 的 大 小 与 之 相同 ， 偏 移 量 为 8。 从 gif 中 抽取 这 些 信 息 并 打印 出 来 ， 看 看 它们 
否 与 预期 的 一 样 都 为 1? 














>>> import struct 

>>> width, height = struct.unpack('<HH', gif[6:10]) 
>>> width, height 

(1, 1) 


E.8 


第 8 章 “ 数 据 的 归宿 ” 





() 将 字符 串 'This is a test of the emergency text system' 赋 给 变量 test1， 然 后 把 它 
写 到 文件 test.txt。 


>>> test1 = 'This is a test of the emergency text System' 
>>> len(test1) 
43 





下 画 





i 是 如 何 使 用 open、write 和 ctose 函数 实现 题目 要 求 : 
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>>> outfile = open('test.txt', 'wt') 
>>> outfile.write(test1) 

43 

>>> outfile.close() 


或 者 直接 使 用 with， 避 免 调用 close (Python 帮 你 实现 ) : 


>>> with open('test.txt', 'wt') as outfile: 
outfile.write(test1) 





43 
(2) 打开 文件 testtxt， 读 文件 内 容 到 字符 串 test2。test1 和 test2 是 一 样 的 吗 ? 


>>> with open('test.txt', 'rt') as infile: 
test2 = infile.read() 


>>> Len(test2) 


43 
>>> test1 == test2 
True 
(3) 保存 这 些 文本 到 test.csv 文件 。 注 意 ， 字 段 间 是 通过 逗号 隔 开 的 ， 如 果 字 段 中 含有 去 号 


需要 在 整个 字段 加 引号 。 


author ,book 
J R R Tolkien,The Hobbit 
Lynne Truss,"Eats, Shoots & Leaves" 


>>> text = '''author ,book 
. J RR Tolkien,The Hobbit 
. Lynne Truss,"Eats, Shoots & Leaves" 


111 


>>> with open('test.csv', 'wt') as outfile: 
outfile.write(text) 


73 
(4) 使 用 csv 模块 和 它 的 DictReader() 方法 读 取 文件 testcsv 到 变量 books。 输 出 变量 books 
的 值 。DictReader() 可 以 处 理 第 二 本 书 题目 中 的 引号 和 逗号 吗 ? 




















>>> with open('test.csv', 'rt') as infile: 
books = csv.DictReader(infile) 
for book in books: 
print(book) 


{'book': 'The Hobbit', 'author': 'J R R Tolkien'} 
{'book': 'Eats, Shoots & Leaves', 'author': 'Lynne Truss'} 








(5) 创建 包含 下 面 这 些 行 的 CSV 文件 books.csv: 


title,author ,year 

The Weirdstone of Brisingamen,Alan Garner,1960 
Perdido Street Station,China Miéville,2000 
Thud! ,Terry Pratchett,2005 
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The Spellman Files,Lisa Lutz,2007 
Small Gods,Terry Pratchett ,1992 


>>> text = '''title,author,year 
.. The Weirdstone of Brisingamen,Alan Garner,1960 
.. Perdido Street Station,China Miéville,2000 
.. Thud!,Terry Pratchett,2005 
.. The Spellman Files,Lisa Lutz,2007 
. Small Gods,Terry Pratchett,1992 
>>> with open('books.csv', 'wt') as outfile: 
outfile.write(text) 


261 
(6) 使 用 sqLite3 模块 创建 一 个 SQLite 数据 库 books.db 以 及 包含 字段 title (text) 、author 
(text) 以 及 year (integer) 的 表单 books。 








>>> import sqlite3 

>>> db = sqlite3.connect('books.db') 

>>> curs = db.cursor() 

>>> curs.execute('''create table book (title text, author text, year int)''') 
<sqlite3.Cursor object at 0x1006e3b90> 

>>> db.commit() 


(7) 读 取 文 件 books.csv， 把 数据 插入 到 表单 book。 


>>> import CSV 
>>> import sqlite3 
>>> ins_str = 'insert into book values(?, ?, ?)" 
>>> with open('books.csv', 'rt') as infile: 
books = csv.DictReader(infile) 
for book in books: 
curs.execute(ins_str, (book['title'], book['author'], book['year'])) 





<sqlite3.Cursor object at 0x1007b21f0> 
<sqlite3.Cursor object at 0x1007b21f0> 
<sqlite3.Cursor object at 0x1007b21f0> 
<sqlite3.Cursor object at Ox1007b21f0> 
<sqlite3.Cursor object at 0x1007b21f0> 
>>> db.commit() 


(8) 选择 表单 book 中 的 title 列 ， 并 按照 字母 表 顺 序 输出 。 


>>> sql = 'select title from book order by title asc 
>>> for row in db.execute(sqtL) : 
print(row) 








('Perdido Street Station',) 
('Small Gods',) 

('The Spellman Files',) 

('The Weirdstone of Brisingamen',) 
('Thud!',) 


如 果 你 只 想 输出 titte 的 值 ， 不 包含 引号 和 逗号 ， 试 下 这 个 方法 : 
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>>> for row in db.execute(sqL) : 
print(row[0]) 


Perdido Street Station 

Small Gods 

The Spellman Files 

The Weirdstone of Brisingamen 
Thud! 


如 果 你 想 排 序 时 忽略 掉 题目 开头 的 'The' ， 还 需要 加 额外 的 SQL 魔法 (语句 ) : 


>>> sql = '''select title from book order by 


. Case when (title like "The %") then substr(title, 5) else title end'"'' 


>>> for row in db.execute(sql): 
print(row[0]) 


Perdido Street Station 

Small Gods 

The Spellman Files 

Thud! 

The Weirdstone of Brisingamen 


(9) 选择 表单 book 中 所 有 的 列 ， 并 按照 出 版 顺序 输出 。 


>>> for row in db.execute('select * from book order by year'): 
print(row) 





('The Weirdstone of Brisingamen', 'Alan Garner', 1960) 
('Small Gods', 'Terry Pratchett', 1992) 

('Perdido Street Station', 'China Miéville', 2000) 
('Thud!', 'Terry Pratchett', 2005) 

('The Spellman Files', 'Lisa Lutz', 2007) 





为 了 打印 输出 表单 book 的 每 一 行 所 有 的 字段 ， 用 去 号 和 空格 把 它们 隔 开 : 


>>> for row in db.execute('select * from book order by year'): 
print(*row, sep='", ') 


The Weirdstone of Brisingamen, Alan Garner, 1960 
Small Gods, Terry Pratchett, 1992 

Perdido Street Station, China Miéville, 2000 
Thud!, Terry Pratchett, 2005 

The Spellman Files, Lisa Lutz, 2007 





(10) 使 用 sqlalchenmy 模块 连接 到 sqlite3 数据 库 books.db， 按 照 (8) 一 样 ， 选 择 表单 book 中 





的 title 列 ， 并 按照 字母 表 顺 序 输出 。 


>>> import sqlalchemy 
>>> Conn = sqlalchemy.create engine('sqlite:///books.db') 
>>> sql = 'select title from book order by title asc' 
>>> rows = conn.execute(sql) 
>>> for row in rows: 
print(row) 


('Perdido Street Station',) 
('Small Gods',) 











('The Spellman Files',) 
('The Weirdstone of Brisingamen',) 
('Thud!',) 


(11) 在 你 的 计算 机 安装 Redis 服务 器 (参见 附录 D) 和 Python 的 redis 库 (pip install redis)。 
创建 一 个 Redis 的 哈 希 表 test， 包 含 字 段 count(1) 和 name('Fester Bestertester ' )， 


偷 出 test 的 所 有 字段 。 


>>> import redis 

>>> conn = redis.Redis() 

>>> conn.deletel( 'test') 

1 

>>> conn.hmset('test', {'count': 1, 'name': 'Fester Bestertester'}) 
True 

>>> conn.hgetall( 'test ' ) 

{b'name': b'Fester Bestertester', b'count': b'1'} 








Jkt 


(12) 自 增 test 的 count 字段 并 输出 它 。 





>>> conn.hincrby('test', 'count', 3) 
4 


>>> conn.hget('test', 'count') 
b'4' 


E.9 第 9 章 “ 剖 析 Web” 


(1) 如 果 你 还 没有 安装 flask， 现 在 安装 它 。 这 样 会 自动 安装 werkzeug、jinja2 和 其 他 包 。 


@O) 搭 建 一 个 网 站 框架 ， 使 用 Flask 的 调试 /代码 重 载 来 开发 Web 服务 器 。 使 用 主机 名 
tocathost 和 默认 端口 5699 来 启动 服务 器 。 如 果 你 电脑 的 566e 端口 已 经 被 占用 ， 使 用 
其 他 端口 。 

下 面 是 文件 flask1.py: 


from flask import Flask 






































app = Flask(__name_ ) 
app.run(port=5000, debug=True) 
F 启 Web 服务 器 引擎 : 

$ python flaski.py 


* Running on http://127.0.0.1:5000/ 
* Restarting with reloader 


(3) 添 加 一 个 home() 函数 来 处 理 对 于 主页 的 请 求 ， 让 它 返回 字符 串 It's alive!。 
我 们 该 如 何 调用 flask2.py 呢 ? 


from flask import Flask 


| 





app = Flask(__name ) 
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@app.route('/') 
def home(): 
return "It's alive!" 


app.run(debug=True) 


开启 服务 器 : 


$ python flask2.py 
* Running on http://127.0.0.1:5000/ 
* Restarting with reloader 


最 后 通过 浏览 器 或 者 命令 行 HTTP 程序 (例如 curl、wget 甚至 telnet) 进入 主页 : 


$ curl http://LocaLhost:5000/ 
It's alive! 


(4) 创建 一 个 名 为 home.html 的 Jinja2 模板 文件 ， 内 容 如 下 所 示 : 
I'm of course referring to {{thing}}, which is {{height}} feet tall and {{color}}. 


创建 名 为 templates 的 目录 ， 在 该 目录 下 创建 包含 以 上 内 容 的 文件 home.html。 如 果 你 的 
Flask 服务 器 仍 在 运行 中 ， 它 会 检测 到 新 的 内 容 并 自动 重启 。 

(5) 修 改 home() 函数 ， 让 它 使 用 home.html 模板 。 给 模板 传人 三 个 6ET 参数 : thing、 
height 和 color。 




















下 面 是 文件 flask3.py: 











from flask import Flask, request, render_template 
app = Flask(__name_ ) 


@app.route('/') 
def home(): 
thing = request.values.get('thing') 
height = request.values.get('height') 
color = request.values.get('color') 
return render_template('home.html', 
thing=thing, height=height, color=color) 


app.run(debug=True) 


在 Web 客户 端 前 往 地 址 http://localhost:5000/?thing=Octothorpe&height=7&color=green， 
你 应 该 可 以 看 到 如 下 内 容 : 


I'm of course referring to Octothorpe, which is 7 feet tall and green. 


E.10 第 10 章 “系统 ” 


(D 把 当前 日 期 以 字符 串 形 式 写 和 人文 本 文件 today.txt。 











>>> from datetime import date 

>>> now = date.today() 

>>> now_str = now.isoformat() 

>>> with open('today', 'wt') as output: 
print(now_str, file=output) 

>>> 


除了 print， 你 可 以 使 用 output.write(now_str) 作为 输出 。 使 用 print 会 在 文件 末尾 增 
加 一 行 空 行 。 
(2) 从 today.txt 中 读 取 字符 串 到 today_string 中 。 


>>> with open('today', 'rt') as input: 
today_string = input.read() 


>>> today_string 
"2014-02-04Nn' 


(3) 从 today_string 中 解析 日 期 。 
>>> fmt = '%Y-%m-%d\n' 


>>> datetime.strptime(today_string, fmt) 
datetime.datetime(2014, 2, 4, 0, 0) 


如 果 你 在 文件 末尾 写 入 空 行 ， 需要 在 格式 字符 串 (format string) 中 匹配 它 。 
(4) 列 出 当前 目录 下 的 文件 。 
如 果 你 的 当前 目录 为 ohmy， 包 含 三 个 以 动物 命名 的 文件 ， 结 果 可 能 是 这 样 的 : 
>>> import os 
>>> os.listdir('.') 
['bears', 'lions', 'tigers'] 
(5) 列 出 父 目录 下 的 文件 。 
如 果 父 目录 包含 两 个 文件 和 当前 的 ohmy 目录 ， 结 果 可 能 是 这 样 的 : 


>>> import os 
>>> os.listdir('..') 
['ohmy', 'paws', 'whiskers'] 


(0) 使 用 multiprocessing 创建 三 个 独立 的 进程 ， 每 一 个 进程 在 0 和 1 之 间 等 待 随 机 的 时 
间 ， 输 出 当前 时 间 ， 然 后 终止 进程 。 


保存 下 面 代码 到 文件 multi_times.py: 


import multiprocessing 





























def now(seconds ) : 
from datetime import datetime 
from time import sleep 
sleep(seconds) 
print('wait', seconds, 'seconds, time is', datetime.utcnow()) 


if _ name == '__ main _': 
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import random 

for n in range(3): 
seconds = random.random() 
proc = multiprocessing.Process(target=now, args=(seconds,)) 
proc.start() 


$ python multi_ times.py 

wait 0.4670532005508353 seconds, time is 2014-06-03 05:14:22.930541 
wait 0.5908421960431798 seconds, time is 2014-06-03 05:14:23.054925 
wait 0.8127669040699719 seconds, time is 2014-06-03 05:14:23.275767 








(7) 创建 一 个 你 


>>> my_day 


生日 的 日 期 对 象 。 
假设 你 出 生 在 1982 年 8 月 14 日 : 


>>> my_day = date(1982, 8, 14) 


datetime.date(1982, 8, 14) 


(8) 你 的 生日 是 星期 几 ? 





>>> my_day.weekday() 


5 


>>> my_day.isoweekday() 


6 





使 用 函数 weekday()， 周 一 返回 0， 周 日 返回 6。 而 使 用 函数 isoweekday()， 周 一 返回 











1， 周 日 返 下 





‘J 





因此 ， 这 一 天 是 周 六 。 








(9) 你 出 生 10 000 天 的 日 期 是 什么 时 候 ? 


>>> from datetime import timedelta 

>>> party_day = my_day + timedelta(days=10000) 
>>> party_day 
datetime.date(2009, 12, 30) 


如 果 你 的 生日 真 的 是 那天 ， 你 可 能 失去 了 一 个 参加 聚会 的 理由 (Party 已 经 过 时 了 )。 


E.11 第 11 章 “并 发 和 网 络 ” 


(1) 使 用 原始 的 socket 来 实现 一 个 获取 当前 时 间 的 服务 。 当 客户 端 向 服务 器 发 送 字符 串 
time 时 ， 服 务 器 会 返回 当前 日 期 和 时 间 的 ISO 格式 字符 串 。 





下 面 是 实现 服务 























PS LU 


器 端的 一 种 方式 ，udp_time_server.py: 


from datetime import datetime 
import socket 


address = ('localhost', 6789) 
max_size = 4096 


print('Starting the server at', datetime.now()) 
print('Waiting for a client to call.') 
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server = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) 
server .bind(address) 
while True: 
data, client addr = server.recvfrom(max_size) 
if data == b'time ': 
now = str(datetime.utcnow()) 
data = now.encode('utf-8') 
server .sendto(data，CLient_addr) 
print('Server sent', data) 
server.close() 


下 


import socket 
from datetime import datetime 
from time import sleep 














看 是 客户 端 udp_time_client.py; 


('localhost', 6789) 
4096 


address 
max_size 


print('Starting the client at', datetime.now()) 
client = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) 
while True: 
sleep(5) 
client.sendto(b'time', address) 
data, server_addr = client.recvfrom(max_size) 
print('Client read', data) 
client.close() 


在 客户 端的 循环 中 加 入 sleep(5) 以 避免 数据 交换 过 于 迅速 。 在 一 个 窗口 开局 服务 器 
进程 ; 


$ python udp_time_server .py 
Starting the server at 2014-06-02 20:28:47.415176 
Waiting for a client to call. 


在 另 一 个 窗口 执行 客户 端 


$ python udp_time_client.py 
Starting the client at 2014-06-02 20:28:51.454805 


5 秒 钟 后 ， 你 开始 得 到 两 者 的 输出 。 下 面 是 来 自 服务 器 的 前 三 行 : 


Server sent b'2014-06-03 01:28:56.462565' 
Server sent b'2014-06-03 01:29:01.463906' 
Server sent b'2014-06-03 01:29:06.465802' 


以 下 是 来 自 客户 端的 前 三 行 输出 : 


Client read b'2014-06-03 01:28:56.462565' 
Client read b'2014-06-03 01:29:01.463906' 
Client read b'2014-06-03 01:29:06.465802" 


这 两 个 程序 都 会 一 直 运 行 ， 需 要 人 工 进 行 终止 。 
(2) 使 用 ZeroMQ 的 REQ 和 REP 套 接 字 实现 同样 的 功能 。 
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这 是 服务 器 端 程序 zmq_time_server.py: 


import zmq 
from datetime import datetime 


host = '127.0.0.1" 
port = 6789 
context = zmq.Context() 
server = context.socket(zmq.REP) 
server.bind("tcp://%s:%s" % (host, port)) 
print('Server started at', datetime.utcnow()) 
while True: 
# 等待 客 户 端 的 下 一 个 请 求 
message = server.recv() 
if message == b'time': 
now = datetime.utcnow() 
reply = str(now) 
server.send(bytes(reply, 'utf-8')) 
print('Server sent', reply) 





以 下 是 客户 端 程序 zmq_time_client.py: 


import zmq 
from datetime import datetime 
from time import sleep 


host = '127.0.0.1" 
port = 6789 
context = zmq.Context() 
client = context.socket(zmq.REQ) 
client.connect("tcp://%s:%s" % (host, port)) 
print('Client started at', datetime.utcnow()) 
while True: 

sleep(5) 

request = b'time' 

client.send(request) 

reply = client.recv() 

print("Client received %s" % reply) 


对 于 原始 的 socket， 你 需要 首先 启动 服务 器 ， 而 使 用 ZeroMQ， 先 启动 服务 器 或 者 客户 
端 都 是 可 行 的 。 


$ python zmq_time_server.py 
Server started at 2014-06-03 01:39:36.933532 





$ python zmq_time_client.py 
Client started at 2014-06-03 01:39:42.538245 


大 约 15 秒 后 ， 服 务 器 会 返回 一 些 行 : 


Server sent 2014-06-03 01:39:47.539878 
Server sent 2014-06-03 01:39:52.540659 
Server sent 2014-06-03 01:39:57.541403 


可 以 在 客户 端 看 到 : 








Client received b'2014-06-03 01:39:47.539878 
Client received b'2014-06-03 01:39:52.540659 
Client received b'2014-06-03 01:39:57.541403" 





(3) 使 用 XMLRPC 实现 同样 的 功能 。 
服务 器 端 ，xmlrpc_time_server.py: 


from xmLrpc.server import SimpleXMLRPCServer 


def now(): 
from datetime import datetime 
data = str(datetime.utcnow()) 
print('Server sent', data) 
return data 


server = SimpleXMLRPCServer(("localhost", 6789)) 
server.register_function(now, "now") 
server .serve_forever() 


客户 端 ，xmlrpc_time_client.py: 


import xmlrpc.client 
from time import sleep 


proxy = xmlrpc.client.Serverproxy("http://Llocalhost:6789/") 
while True: 

sleep(5) 

data = proxy.now() 

print('Client received', data) 


启动 服务 器 进程 : 
$ python xmLrpc_time_server .py 

启动 客户 端 进程 : 
$ python xmLrpc_time_cLient.py 

大 约 15 秒 后 ， 这 是 服务 器 端 输出 的 前 三 行 : 


Server sent 2014-06-03 02:14:52.299122 


Tl 




















127.0.0.1 - - [02/Jun/2014 21:14:52] "POST / HTTP/1.1" 200 - 

Server sent 2014-06-03 02:14:57.304741 

127.0.0.1 - - [02/Jun/2014 21:14:57] "POST / HTTP/1.1" 200 - 

Server sent 2014-06-03 02:15:02.310377 

127.0.0.1 - - [02/Jun/2014 21:15:02] "POST / HTTP/1.1" 200 - 
下 面 是 客户 端 输出 的 前 三 行 : 


Client received 2014-06-03 02:14:52.299122 
Client received 2014-06-03 02:14:57.304741 
Client received 2014-06-03 02:15:02.310377 
(4) 你 可 能 看 过 那 部 很 老 的 《我 爱 露 西 》(7 Love Lucy) 电视 节目 。 露 西 和 埃 塞 尔 在 一 个 巧 
克 力 工厂 里 工作 (这 是 传统 )。 他 们 落 在 了 运输 甜点 的 传送 带 后 面 ， 所 以 必须 用 更 快 的 
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速度 进行 处 理 。 写 一 个 程序 来 模拟 这 个 过 程 ， 程 序 会 把 不 同类 型 的 巧克力 添加 到 一 个 
Redis 列表 中 ， 露 西 是 一 个 客户 端 ， 对 列表 执行 阻塞 的 弹出 操作 。 她 需要 0.5 秒 来 处 理 
一 块 巧克力 。 打 印 出 时 间 和 露 西 处 理 的 每 块 巧克力 类 型 以 及 剩余 巧克力 的 数量 。 


redis_choc_supply.py 提供 初始 的 工人 
































I 


import redis 
import random 
from time import sleep 


conn 


while True: 


conn 


while True: 


ct 





= redis.Redis() 
varieties = ['truffle', 'cherry', 'caramel', 'nougat'] 
conveyor = 


'chocolates' 


seconds = random.random() 
sleep(seconds) 


piece 


random.choice(varieties) 


conn.rpush(conveyor, piece) 


露 西 的 过 程 更 像 是 redis_lucy.py: 


import redis 
from datetime import datetime 
from time import sleep 





= redis.Redis() 
timeout = 10 
conveyor = 


'chocolates' 


sleep(0.5) 
msg = conn.blpop(conveyor, timeout) 
remaining = conn.llen(conveyor) 


if msg: 
piece = msg[1] 
print('Lucy got a', piece, 'at', datetime.utcnow(), 


3? 


only', remaining, 'left') 

















任意 的 顺序 打开 服务 器 或 者 客户 端 进程 ， 因 为 露 西 需要 半 秒 钟 处 理 每 一 个 巧克力 ， 而 且 








平均 每 隔 半 秒 钟 会 生产 一 块 巧克力 ， 这 是 一 场 追 赶 着 的 比赛 。 开 始 放 入 传送 带 上 的 巧 克 
力 越 多 ， 露 西 的 工作 难度 也 越 大 。 


$ python redis_choc_supply.py& 


$ py 
Lucy 
Lucy 
Lucy 
Lucy 
Lucy 
Lucy 
Lucy 
Lucy 
Lucy 
Lucy 


thon 
got 
got 
got 
got 
got 
got 
got 
got 
got 
got 








redis_lucy.py 


a 
a 
a 
a 
a 
a 
a 
a 
a 
a 


b'nougat' at 2014-06-03 03:15:08.721169 ，onLy 4 left 
b'cherry' at 2014-06-03 03:15:09.222816 ，onLy 3 left 
b'truffle' at 2014-06-03 03:15:09.723691 ,， only 5 left 
b'truffle' at 2014-06-03 03:15:10.225008 ,， only 4 left 
b'cherry' at 2014-06-03 03:15:10.727107 ，onLy 4 left 
b'cherry' at 2014-06-03 03:15:11.228226 , only 5 left 
b'cherry' at 2014-06-03 03:15:11.729735 ，onLy 4 left 
b'truffle' at 2014-06-03 03:15:12.230894 ,only 6 left 
b'caramel' at 2014-06-03 03:15:12.732777 , only 7 left 
b'cherry' at 2014-06-03 03:15:13.234785 ，onLy 6 left 
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Lucy got a b'cherry' at 2014-06-03 03:15:13.736103 , only 7 left 
Lucy got a b'caramel' at 2014-06-03 03:15:14.238152 , only 9 left 
Lucy got a b'cherry' at 2014-06-03 03:15:14.739561 , only 8 left 


可 怜 的 露 西 ! ! 

(5) 使 用 ZeroMQ 发 布 第 7 章 练 习 (7) 中 的 诗 ， 每 次 发 布 一 个 单词 。 写 一 个 ZeroMQ 客户 端 
来 打印 出 每 个 以 元 音 开 头 的 单词 ， 再 写 另 一 个 客户 端 来 打印 出 所 有 长 度 为 5 的 单词 。 忽 
略 标点 符号 。 
下 面 是 服务 器 poem_pub.py， 把 每 个 单词 从 诗 中 拆 分 出 来 。 如 果 单 词 首 字母 为 元 音 ， 就 


发 布 到 主题 vowels 上 ， 如 果 单 词 有 五 个 字母 ， 就 发 布 到 主题 five 上 。 一 些 词 可 能 同时 
包括 在 两 个 主题 内 ， 也 有 一 些 都 没有 。 


import string 





























import zmq 

host = '127.0.0.1" 
port = 6789 

ctx = zmq.Context() 


pub = ctx.socket(zmq.PUB) 
pub.bind('tcp://%s:%s' % (host, port)) 


with open('mammoth.txt', 'rt') as poem: 
words = poem.read() 
for word in words.split(): 
word = word.strip(string.punctuation) 
data = word.encode('utf-8') 
if word.startswith(('a','e','i','o','y','A','e','i','o','y')): 
pub.send_multipart([b'vowels', data]) 
if Len(word) == 5: 
pub.send_multipart([b'five', datal]) 


客户 端 程序 poem_sub.py， 订 阅 主题 vowels 和 five， 并 打印 输出 主题 和 单词 : 


import string 








import zmq 

host = '127.0.0.1" 
port = 6789 

ctx = zmq.Context() 


sub = ctx.socket(zmq.SUB) 
sub.connect('tcp://%s:%s' % (host, port)) 
sub.setsockopt(zmq.SUBSCRIBE, b'vowels') 
sub.setsockopt(zmq.SUBSCRIBE, b'five') 
while True: 
topic, word = sub.recv_multipart() 
print(topic, word) 


如 果 你 开启 这 些 服务 并 执行 代码 ， 它 们 儿 乎 是 不 工作 的 。 代 码 看 起 来 是 对 的 ， 但 是 没 
有 做 任何 事情 。 首 先 需要 阅读 ZeroMQ 文档 (http://zguide.zeromq.org/page:all) 了 解 慢 
连接 (slow joiner) 问题 ， 即 使 是 在 服务 器 端 之 前 开启 客户 端 ， 服 务 器 会 立刻 发 布 数据 ， 
客户 端 只 有 片刻 时 间 连 接 到 服务 器 。 如 果 你 发 布 持续 的 数据 流 ， 当 订阅 的 客户 错过 一 些 
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是 没有 关系 的 。 但 在 本 例 中 ， 数 据 流 很 小 导致 订阅 客户 端 “ 上 及 上 腿 ” 间 流 过 ， 就 像 快 球 巨 
速 掠 过 击 球 手 。 

最 简单 的 解决 办 法 是 在 发 布 者 (服务 器 端 ) 调用 bind() 函数 之 后 和 开始 发 送 消息 之 前 
休眠 一 秒 。 使 用 这 个 版 本 的 程序 poem_pub_sleep.py: 


import string 
import zmq 
from time import sleep 











host '127.0.0.1" 

port 6789 

ctx = zmq.Context() 

pub = ctx.socket(zmq.PUB) 
pub.bind('tcp://%s:%s' % (host, port)) 


sleep(1) 


with open('mammoth.txt', 'rt') as poem: 
words = poem.read() 
for word in words.split(): 
word = word.strip(string.punctuation) 
data = word.encode('utf-8') 
if word.startswith(('a','e','i','o','y','A','e','i','o','y')): 
print('vowels', data) 
pub.send_multipart([b'vowels', datal]) 
if len(word) == 5: 
print('five', data) 
pub.send_multipart([b'five', datal]) 


开启 订阅 者 进程 ， 然 后 打开 休眠 版 的 发 布 者 进程 : 
$ python poem_sub.py 
$ python poem_pub_sleep.py 
现在 ， 订 阅 者 有 时 间 来 捕 提 这 两 个 主题 的 消息 。 以 下 是 它 输 出 的 前 几 行 : 


b'five' b'queen' 
b'vowels' b'of' 
b'five' b'Lying' 
b'vowels' b'at' 
b'vowels' b'ease’ 
b'vowels' b'evening 
b'five' b'flies' 
b'five' b'seize' 
b'vowels' b'ALL' 
b'five' b'gaily' 
b'five' b'great' 
b'vowels' b'admired ' 


如 有 果 你 不 能 在 发 布 者 程序 中 加 入 sleep() 函数 ， 可 以 使 用 REQ 和 REPsockets 同步 进行 发 
布 者 和 订阅 者 。 在 GitHub (https://github.com/zeromq/pyzmq/tree/master/examples/pubsub) 
查看 实例 代码 publisher.py 和 subscriber.py。 





























附录 FF 





我 发 现 我 会 频繁 地 查找 某 些 东西 。 下 面 列 


操作 符 优先 级 


F.1 








速 查 表 





的 表格 希望 对 你 有 所 帮助 。 





下 面 这 张 表 是 官方 文档 中 关于 优先 级 的 混合 ， 高 优先 级 的 运算 符 在 上 面 。 











操作 符 








描述 和 示例 





[vi, ...]、 {vi vl 
seq[n]、seq[n:m]、func(args...)、obj .attr 


湛 需 


in、not in, is, is not、<、<=、>、>=、 


notx 
and 


or 


if...else 


lambda 


F.2 字符 串 方 法 


Python 不 仅 提供 了 字符 旧 




















使 用 下 男 
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列表 /集合 /字典 /生成 器 的 创建 和 推导 ， 括 号 内 表达 式 
索引 、 切 片 、 函 数 调用 和 属性 引用 

寡 运 算 
正 号 、 负 号 和 位 求 反 

乘法 、 谣 点 除法 、 整 数 除法 和 取 余 
加 法 、 减 法 

按 位 左 移 、 按 位 右 移 

按 位 与 
按 位 或 

属于 关系 和 相等 性 测试 
布尔 取 非 

布尔 取 与 

布尔 取 或 

条 件 表 达 式 

lambda 表达 式 


























方法 (不 借助 str 对 象 )， 而 且 包含 了 定义 丰富 的 string 模块 。 


>>> S = "0H，my paws and whiskers!" 
>>> 七 = "I'm late!" 


F.2.1 改变 大 小 写 


>>> s.capitalize() 

'Oh, my paws and whiskersl' 
>>> Ss.Lower() 

"oh，my paws and whiskersl' 
>>> s.swapcase() 

"oh，MY PAWS AND WHISKERS!' 
>>> s.title() 

'Oh, My Paws And WNhiskersl' 
>>> s.upper() 

'OH, MY PAWS AND WHISKERS!' 


F.2.2 搜索 


>>> s.count('w') 
>>> s.find('w') 

>>> s.index('w') 
>>> s.rfind('w') 
>>> s.rindex('w') 


>>> s.startswith('OH') 
True 


F.2.3 修改 


>>> ''.join(s) 

'OH, my paws and whiskersl' 

>>> ' '.join(s) 

OH， my paws and whiskers!' 
>>> " '.join((s, t)) 


"OH, my paws and whiskers! I'm late!" 

>>> s.lstrip('HO') 

', my paws and whiskers!' 

>>> s.replace('H', 'MG') 

'OMG, my paws and whiskers!' 

>>> s.rsplit() 

['OH,', 'my', 'paws', 'and', 'whiskers!'] 
>>> s.rsplit(' ', 1) 

['OH, my paws and', 'whiskers!'] 

>>> s.split() 

['OH,', 'my', 'paws', 'and', 'whiskers!'] 
>>> s.split(' ') 

['OH,', 'my', 'paws', 'and', 'whiskers!'] 
>>> s.splitlines() 

['OH, my paws and whiskers!'] 
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>>> s.strip() 

'OH, my paws and whiskers! 
>>> s.strip('s!') 

'OH, my paws and whisker' 


F.2.4 格式 化 


>>> s.center(30) 

' OH, my paws and whiskers! 
>>> s.expandtabs() 

'OH, my paws and whiskers!' 
>>> s.ljust(30) 

'OH, my paws and whiskers! 
>>> s.rjust(30) 

OH, my paws and whiskers!' 


F.2.5 字符 串 类 型 


>>> s.isalnum() 
False 

>>> s.isalpha() 
False 

>>> s.isprintable() 
True 

>>> s.istitle() 
False 

>>> s.isupper() 
False 

>>> s.isdecimal() 
False 

>>> s.isnumeric() 
False 


F.3 字符 串 模 块 属性 


1 








这 些 是 用 于 常量 定义 的 类 属性 : 

属性 示例 

ascii_ letters "abcdefghijkLmnopqrstuvwxyzABCDEFGHIJIKLMNOPQRSTUVNXYZ 
ascii_ lowercase 'abcdefghijklmnopqrstuvwxyz' 


ascii_uppercase 'ABCDEFGHIJKLMNOPQRSTUVWXYZ 


digits '0123456789' 

hexdigits "90123456789abcdefABCDEF ' 

octdigits '01234567"' 

punctuation MI"#$%8\ CO)*+,-./:;<=>?7@[\]^ {1}~ 

printable "0123456789abcdefghijklmnopqrstuvwxyz' + 'ABCDEFGHIJKLMNOPQRSTUVWXYZ' + 
9%&N ()*+,-./:;<=>?@[\I^_ {I}~’ + ' \t\n\r\xOb\xOc! 

whitespace ' \t\n\r\xOb\xQOc! 
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作者 介绍 
Bill Lubanovic 1977 年 开始 开发 Unix 软件 ，1981 年 开始 开发 GUI 软件 ，1990 年 开始 开发 
数据 库 软 件 ，1993 年 开始 开发 Web 软件 。 


1982 年 ，Bil 在 一 家 名 为 Intran 的 创业 公司 为 最 早 的 图 形 工 作 站 之 一 开发 了 MetaForm， 这 
是 (在 Mac 和 Windows 之前) 最 早 的 商业 GUI 软件 之 一 。20 世纪 90 年 代 初 期 ， Bil 在 
Northwest Airlines 编写 了 一 个 图 形 化 的 收益 管理 系统 ， 它 带 来 了 数 百 万 美元 的 收入 ; B 记 还 
帮助 公司 在 互联 网 上 打响 了 名 声 ， 并 编写 了 公司 的 第 一 个 网 络 营销 测试 。 之 后 ， 他 在 1994 
年 和 别人 共同 成 立 了 ISP 公司 (Tela) ， 在 1999 年 成 立 了 一 家 Web 开发 公司 (Mad Scheme ) 。 


近 几 年 ， 他 还 和 一 个 远程 团队 一 起 为 曼哈顿 的 一 家 创业 公司 编写 核心 服务 。 目 前 ， 他 正在 
为 一 家 超级 计算 机 公司 集成 OpenStack 服务 。 


Bill 很 享受 在 明尼苏达 州 的 生活 ， 陪 伴 他 的 还 有 他 优秀 的 妻子 Mary、 孩 子 Tom 和 Karin 以 
及 猫咪 Inga、Chester 和 Lucy。 


封面 介绍 


本 书 封面 上 的 动物 是 一 只 亚洲 巨 蜡 (网 纹 蟒 )。 这 种 蛇 并 不 像 看 起 来 那样 吓人 : 它 没 有 毒 
性 ， 也 很 少 攻击 人 类 。 这 种 蛇 的 长 度 可 以 达到 七 米 (有 时 甚至 能 超过 九 米 )， 是 世界 上 最 
长 的 蛇 和 候 行 动物， 不 过 大 多 数 个 体 只 有 三 四 米 长 。 在 拉丁 语 中 ， 这 种 蛇 的 名 字形 容 的 是 
它 像 网 一 样 的 图 案 和 颜色 。 不 同 地 区 网 纹 蜡 的 尺寸 和 颜色 差别 很 大 ， 但 是 背部 都 有 钻石 形 
状 。 特 丈 的 外 表 可 以 让 网 纹 蜡 轻松 地 融入 周围 的 环境 中 。 

亚洲 巨 蟒 主 要 分 布 在 东南 亚 。 按 照 地 区 可 以 划分 为 三 个 亚 种 ， 但 是 科学 界 并 不 认可 这 种 说 
法 。 堪 蛇 通 常生 活 在 雨林 、 树 林 、 草 原 和 水 中 ， 它 们 的 游泳 技能 十 分 出 众 ， 其 至 能 游 到 很 
远 的 岛 上 。 蟒 蛇 主 要 的 食物 是 哺乳 动物 和 乌 类 。 

网 纹 蟒 在 人 工 饲养 中 越 来 越 受 欢 迎 ， 因 为 它们 的 外 表 很 有 特点 ， 习 性 良好 。 不 过 在 饲养 中 
也 会 遇 到 一 些 问 题 。 有 记录 表明 出 现 过 亚洲 巨 蟒 吃 人 或 者 杀人 的 案例 。 对 于 活体 蟒蛇 的 长 
度 测量 也 非常 困难 ， 只 能 准确 测量 已 经 死亡 或 者 麻醉 的 蟒蛇 。 人 工 饲养 的 蟒蛇 大 多 比 野 生 
蛇 更 胖 一 些 ， 而 且 它 们 通常 来 说 不 具有 危险 性 ， 顶 多 算是 不 太 稳 定 。 

O’Reilly 封面 上 出 现 的 许多 动物 都 濒临 灭绝 ， 但 是 它们 对 地 球 来 说 都 非常 重要 。 如 果 想 伸 
出 援手 ， 请 访问 http://animals.oreilly.com。 


封面 图 片 来 自 Johnson 的 《自然 历史 》。 
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欢迎 加 入 


图 灵 社 区 ITuring.cn 





最 前 沿 的 IT 类 电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 犹豫 入 得 的 时 候 ， 图 灵 社 区 已 经 采取 实 
际 行动 拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 开 类 出 版 商 ， 图 灵 社 区 目前 为 读者 
提供 两 种 DRM-free 的 阅读 体验 :在线 阅读 和 PDF。 

相 比 纸 质 书 ， 电 子 书 具 有 许多 明显 的 优势 。 它 不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩 
色 图 片 ( 即使 有 的 书 纸 质 版 是 黑白 印刷 的 )。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 

图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 
稿 、 编 辑 网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 “人 敏捷 出 
版 ”， 它 可 以 让 读者 以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 往 翻 译 版 技术 书 
“出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 提前 消炎 
书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 的 质量 。 
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优惠 提示 : 现在 购买 电子 书 ， 读 者 将 获 赠 书 款 20% 的 社区 银子 ， 可 用 于 免 换 纸 质 样 书 。 


一 一 最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ” 
功能 ， 你 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 。( 收 
费 形式 须 经 过 图 灵 社 区 立项 评审 。 ) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 的 意愿 ， 图 灵 
社区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 书稿 ， 有 机 会 人 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 你 有 意 翻译 哪 本 图 
书 ， 欢 迎 你 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 要 想 成 功 
地 完成 一 本 书 的 翻译 工作 ， 是 需要 有 坚强 的 毅力 的 。 


最 直接 的 读者 交流 平台 


在 图 灵 社 区 ,你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 
辑 人 员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 银子 。 

你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 乐 译 、 评 选 等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 
声望 。 
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延 展 阅读 


Er 实战 式 TDD 开发 指南 ,使 用 Python 、Django 等 流行 技术 开发 现代 Web 应 用 ! 


书 手 押 手 孝 你 从 站 > 个 4 示 测试 3 
Python Web 开 发 本 BB 把 教 你 从 I i 正 的 Web 应 用 ， 人 
测试 驱动 方法 动 开发 (TDD ) 的 优势 。 你 将 学 到 如 何在 开发 应 用 的 每 一 个 部 分 之 前 先 编写 和 运行 

测试 ， 然 后 再 编写 最 少量 的 代码 让 测试 通过 。 也 就 是 说 ， 你 将 学 会 应 用 TDD 理 念 ， 
写 出 简洁 可 用 、 赏 心 悦 目的 代码 。 
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Test 












































书号 : 978-7-115-40327-8 
定价 : 99.00 元 








作者 集 25 年 软件 开发 经 验 ， 展 示 自 己 使 用 Flask 开发 Web 程序 的 工作 流程 

从 安装 与 环境 设置 讲 起 ， 一 步 一 步 搭 建 服务 器 端 Web 应 用 

一 个 程序 贯穿 始终 ， 从 密 寥 几 行 代码 逐 章 扩 展 ， 最 终 打造 成 功能 完善 的 社交 博客 Flasky 
直接 给 出 必 知 知识 ， 为 初学 者 提供 进一步 探索 的 起 点 

全 流程 讲解 Web 应 用 开发 ， 让 中 高 级 读者 掌握 最 佳 实践 


书号 : 978-7-115-37399-1 
定价 : 59.00 元 











Python 是 门 很 棒 的 编程 语言 ， 适 合 快速 构建 应 用 原型 。 本 书 全 面 介 绍 了 Python 网 络 
编程 涉及 的 重要 问题 ， 包 括 网 络 编程 、 系 统 和 网 络 管理 、 网 络 监 控 以 及 Web 应 用 
发 。 作 者 通过 70 多 篇 攻略 ， 清 晰 简明 地 描述 了 各 种 网 络 任务 和 问题 ， 提 出 了 可 用 于 
多 种 场景 的 解决 方案 ， 并 细致 地 分 析 了 整个 操作 过 程 。 如 果 你 想 开发 依赖 于 网 络 协 
议 的 实用 Web 应 用 和 网 络 应 用 ， 绝 对 不 能 错过 这 本 书 。 
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书号 : 978-7-115-37269-7 
定价 : 45.00 元 


程序 员 苞 区 的 第 一 本 亲子 互动 编程 书 ! 


编程 是 一 项 充满 乐趣 的 挑战 ， 想 要 上 手 也 非常 容易 ! 本 书 中 ，Warren 和 Carter 父 子 以 
亲切 的 笔调 、 通 俗 的 语言 ， 透 彻 全 面 地 介绍 了 计算 机 编程 世界 。 他 们 以 简单 易学 的 
Python 语言 为 例 ， 通 过 可 爱 的 漫画 、 有 趣 的 例子 ， 生 动 地 介绍 了 变量 、 循 环 、 输 入 和 
输出 、 数 据 结构 以 及 图 形 用 户 界面 等 编程 的 基本 概念 。 只 要 懂得 计算 机 的 基本 操作 ， 如 
启动 程序 、 保 存 文件 ， 任 何人 都 可 以 跟随 本 书 ， 由 简 入 难 ， 学 会 编写 程序 ， 甚 至 制作 
游戏 。 本 书 内 容 经 过 教育 专家 的 评审 ， 经 过 孩子 的 亲身 检验 ， 并 得 到 了 家 长 的 认可 。 
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Python 语言 及 其 应 用 


本 书 内 容易 于 理解 ， 而 且 读 起 来 生动 有 趣 ， 是 编程 和 Python 初学 者 不 可 “Bill Lubanovic 编 写 了 一 本 非常 优秀 

多 得 的 优秀 教程 。 书 中 首先 介绍 了 Python 的 基础 知识 ， 然 后 逐渐 深入 多 的 著作 ， 介 绍 了 编程 的 基础 知识 ， 

种 主题 ， 结 合 教程 和 菜谱 式 风 格 来 讲解 Python 3 中 的 概念 。 每 章 结尾 的 练 并 指导 你 如 何 利用 庞大 的 Python 

习 可 以 帮助 你 巩固 所 学 的 知识 。 工具 箱 解决 现实 生活 中 的 问题 。 通 
过 阅读 本 书 ， 你 一 定 能 学 会 如 何 用 

本 书 会 为 你 学 习 Python 打 下 坚实 的 基础 ， 包 括 测试 、 调 试 、 代 码 复 用 的 Python 解决 问题 。” 

最 佳 实践 以 及 其 他 开发 技巧 。 同 时 还 会 告诉 你 如 何在 商业 、 科 学 和 艺术 一 一 Loic Pefferkorn 

领域 使 用 Python ， 并 教会 你 使 用 多 种 Python 工具 和 开源 包 。 开源 系统 工程 师 

通过 阅读 本 书 ， 你 将 能 够 : 

学 习 简 单 的 数据 类 型 ， 以 及 基本 的 数学 和 文本 操作 

学 习 用 Python 内 置 的 数据 结构 来 处 理 数 据 

掌握 Python 的 代码 结构 和 函数 的 用 法 

使 用 模块 和 包 编 写 大 规模 Python 程序 

深入 理解 对 象 、 类 和 其 他 面向 对 和 象 特性 

国 学 习 使 用 普通 文件 、 关 系数 据 库 和 NoSQL 数 据 库 来 存储 数据 

国 使 用 Python 构建 Web 客 户 端 、 服 务 器 、API 和 服务 

罩 管理 系统 任务 ， 比 如 程序 、 进 程 和 线程 

国 理解 并 发 和 网 络 编程 的 基础 知识 


Bill Lubanovic 现 为 Penguin Computing 公 司 高 级 软件 工程 师 。1977 年 开始 开 
发 Unix 软 件 ，1981 年 开始 开发 GUI 软件 ，1990 年 开始 开发 数据 库 软 件 ，1993 
年 开始 开发 Web 软 件 。 与 人 合 著 有 Linux System Administration。 
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看 完了 


如 果 您 对 本 书 内容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook.com。 
在 这 里 可 以 找到 我 们 : 
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